Показаны сообщения с ярлыком парсер. Показать все сообщения
Показаны сообщения с ярлыком парсер. Показать все сообщения

21 авг. 2008 г.

Вчера, около восьми вечера, без предупреждения, Google

Вчера, около восьми вечера по серверному времени (около часа ночи по Луганскому времени), без предупреждения, Google изменил формат выдачи серпа и парсер перестал работать.

Прошлое изменение выдачи было в конце марта. Тогда тоже пришлось выкладывать фотографию кода :(

Новая выдача лучше старой, содержит меньше форматирования. Поскольку блогспот не позволяет нормально вставить код на ПХП, под катом лежит фотогрфия старой и новой регулярки для парсера. Поубирал лишние скобки, ибо понял, зачем они нужны :) Осторожно, перенос строк по пробелам! Кликнуть для увеличения.




Прочитать полностью...

28 мая 2008 г.

Первые впечатления от демо Хрумера 4.0 платинум за два часа.

Статья на конкурс использования Хрумера 4.0 Платинум новичками. Начало тут.

- Распаковал архив xdemo.zip.

- Полазил по всем файлам, посмотрел что там и где. Структура понравилась. Непонял только одно - зачем шифровать файл проекта.

- Нашел хорошую базу городов по странам, мужских и женских имен с указанием частоты встречи в реальных данных.

- взамен даденой учебной базы номер 23 на 3000 ресурсов, которую "проверют на живучесть" все новички в демоверсии, скачал из интернета другую на восемь мегабайт на 170 тысяч ресурсов, возможно менее заезженую. База отсортирована по ПР, но формы попадаюся разные :) не только форумы.
Верхушка:
http://forum.statcounter.com/vb/index.php
http://forums.mysql.com/index.php
http://forum.mamboserver.com/index.php
http://www.sun.com/emrkt/boardroom/home/brm_mcnealy_0106.html
http://www.webshots.com/supportforum/post.jsp
http://www.topix.net/forum/sports/
http://www.linuxforums.org/servers/captcha.php
Интересно, там аптеки можно спамить? :)

- нашел в хрумере приличный список доменов-абузеров для блэклиста. Чистка (меню Инструменты - Удалить все ссылки по блэк-листу) моей базы от них заняла меньше минуты и выдала 97 совпадений из 170000 записей.

- "моя" база датирована концом прошлого года.

- по инструкции к демоверсии начал запускать урлы вручную.

- за 10 минут прошел 50 линков.

- скорость моего копирования урлов через буфер обмена превышет скорость постинга хрумера в два разрешенных в демоверсии потока на моем 128 килобитном канале. Успешных 6, полууспешных - 12, неуспешных - 8, остальное - прочее.

- обязательно в настройках своего файервола (агнитум аутпост файервол) отключите режим обучения по флешам. Наверно, нужно разрешить флеш на время размешения сообщений. При посещении Хрумером сайта с флешем появляется запрос файервол "Разрешить флеш или нет", что очень утомляет, а в автоматическом режиме будет просто блокировать работу Хрумера.

- пошел смотреть по файлу ZLinksList id1.txt - куда запостилось. Обнаружил почти нулячий форум в подкаталоге, не засраный, а на морде PR7. Жаль только что нет линка с морды на форум. Можно проверить домен этого форума на трастовость.

- по запросу тестовой фразы "I am XRumer, where is my topic?!" в гугле можно найти 662 места, куда может постить Хрумер. А оттуда легко получить текстовые признаки для парсинга новых ресурсов.

- обнаружил работающую даже в демоверсии уникальную тулзу: Анализатор признаков ссылок. Скармливаешь ей базу урлов, а она выдает список запросов inurl, которыми её можно выпарсить из гугла. Такой себе генератор признаков гостувух, блогов, форумов. Парсер наоборот.

- и вообще в меню Инструменты есть куча нужного даже в демоверсии!

- в конце концов я сломал хрумер :) вот скрин.



Под катом описание как я его сломал.



Если имя файла имеет вид:
LinksList id01.txt
Вместо
LinksList id1.txt
то при достижении прокруткой этого номера базы урлов появляется сообщение о делении на ноль.

Далее серьёзно. Слишком много ограничений у хрумера в демоверсии, на мой взгляд. Проект редактировать нельзя. Настройки никакие менять нельзя. Можно было бы и поменьше порезать. Интерфейс действительно простой и понятный уже через пять минут. Писать длинную статью не хочу, потому что инструкция на редкость простая, подробная и понятная - нафига переписывать. Короче нужно покупать. Спецы говорят, что за неделю окупается.

Прочитать полностью...

22 мар. 2008 г.

Палю тему номер 4 - как скачать интернет.

Палю тему номер 4 - кто-то скачивает интернет, точнее серп МСН. На один мой сайт уже недели две приходит кто-то/что-то c реферерами:

http://search.live.com/results.aspx?q=online&mrt=en-us&FORM=LIVSOP
http://search.live.com/results.aspx?q=public&mrt=en-us&FORM=LIVSOP

Ясное дело, что по таким общим словам, с конкуренцией 3 470 000 000, живой человек врядли будет листать до 789 результата, где, наверно мой сайт и стоит. Видимо это парсер лазит, домены собирает.

Прочитать полностью...

19 мар. 2008 г.

Tellinya советует, как ускорить парсинг до скорости света

Tellinya советует, как ускорить парсинг до скорости света на локальной машине под виндовс XP SP2 (не SP1) и XP x64 editions (может быть Vista тоже).
Проблема в том, что мелкософт ограничил число открытых коннектов ТСП/ИП в 10 штук в секунду, поэтому у него парсеры под виндой медленно работают, весь канал не засирают. Он нашел патчик для tcpip.sys, котрые увеличивает число сокетов до 1000! Переводить все не охота, оригнал там (англ. яз.).

Собственно патчи читать тут:
1. Remove the limit on TCP connection attempts
2. Tcp-Ip patch for XP64 SP2

ИМХО имеет смысл при мегабитном и более канале.

Прочитать полностью...

7 мар. 2008 г.

Палю полезный софт для рунета

Палю полезный софт для рунета.

Вот тут можно даром, т.е. бесплатно скачать парсер русских кивордов из яндексового вордстата. Первое-препервое впечатление =



слово "буфер" в русском языке пишется с одной "ф". Вообще прога сделана добротно и надежно. Инсталяции не требует, при проверке съела один мегабайт трафика и выдала на гора 1800 кивордов из одного исходного.

Жаль, что скоро там будет капча вместо бана по айпи.

Прочитать полностью...