Показаны сообщения с ярлыком робот. Показать все сообщения
Показаны сообщения с ярлыком робот. Показать все сообщения

20 февр. 2009 г.

Новый поисковик с платной выдачей panscient.com

Делаю новый сайт на новом домене, неделя от роду, гугл-боту ещё не известен, отлаживаю скрипт, вдруг у меня на глазах начинает заполняться кэш и притом быстро так. Иду смотреть логи: робот panscient.com IP 38.100.8.50 шустро так сканирует сайт. 165 страниц за пять минут, притом некоторые страницы по два раза. А то на сайте всего сто страниц :) а ему мало. При этом роботс.тхт он не брал. Т.е. сканировал всё подряд.
Собранную базу они продают, не говорят за сколько :)

Кто-нибудь знает, это за стартап такой буйный?


В их ФАКе понравилось:

How often will your crawler request a page from my server?

The Panscient web crawler will request a page at most once every second from the same domain name or the same IP address.

Раз в секунду...
Прочитать полностью...

1 мая 2008 г.

Гугл будет индексировать яваскрипты и формы GET

Правительство и другие официальные лица заявили, что гугл будет индексировать не только яваскрипты и флешы, но и формы методом GET. Причем робот будет подбирать для текстовых полей слова из самого текста сайта, а радио и чекбоксы будет заполнять из значений внутри HTML. Если по ту сторону формы есть интересный уникальный контент - быть ему в индексе.

Старший брат беспокоится о качестве индексации наших сайтов. Теперь прятать редирект доров сложно будет не только яваскриптом и флешем, но и псевдоформой. Даешь капчу для гуглоробота! Прочитать полностью...