Делаю новый сайт на новом домене, неделя от роду, гугл-боту ещё не известен, отлаживаю скрипт, вдруг у меня на глазах начинает заполняться кэш и притом быстро так. Иду смотреть логи: робот panscient.com IP 38.100.8.50 шустро так сканирует сайт. 165 страниц за пять минут, притом некоторые страницы по два раза. А то на сайте всего сто страниц :) а ему мало. При этом роботс.тхт он не брал. Т.е. сканировал всё подряд.
Собранную базу они продают, не говорят за сколько :)
Кто-нибудь знает, это за стартап такой буйный?
В их ФАКе понравилось:
How often will your crawler request a page from my server?
The Panscient web crawler will request a page at most once every second from the same domain name or the same IP address.
Раз в секунду...
Прочитать полностью...
Показаны сообщения с ярлыком робот. Показать все сообщения
Показаны сообщения с ярлыком робот. Показать все сообщения
20 февр. 2009 г.
Новый поисковик с платной выдачей panscient.com
1 мая 2008 г.
Гугл будет индексировать яваскрипты и формы GET
Правительство и другие официальные лица заявили, что гугл будет индексировать не только яваскрипты и флешы, но и формы методом GET. Причем робот будет подбирать для текстовых полей слова из самого текста сайта, а радио и чекбоксы будет заполнять из значений внутри HTML. Если по ту сторону формы есть интересный уникальный контент - быть ему в индексе.
Старший брат беспокоится о качестве индексации наших сайтов. Теперь прятать редирект доров сложно будет не только яваскриптом и флешем, но и псевдоформой. Даешь капчу для гуглоробота!
Прочитать полностью...
Подписаться на:
Сообщения (Atom)