Палю тему номер 4 - кто-то скачивает интернет, точнее серп МСН. На один мой сайт уже недели две приходит кто-то/что-то c реферерами:
http://search.live.com/results.aspx?q=online&mrt=en-us&FORM=LIVSOP
http://search.live.com/results.aspx?q=public&mrt=en-us&FORM=LIVSOP
Ясное дело, что по таким общим словам, с конкуренцией 3 470 000 000, живой человек врядли будет листать до 789 результата, где, наверно мой сайт и стоит. Видимо это парсер лазит, домены собирает.
Прочитать полностью...
22 мар. 2008 г.
Палю тему номер 4 - как скачать интернет.
21 мар. 2008 г.
Поскольку блог Эли досят, captchasolverproxy.zip выложил на рапиду.
Поскольку блог Эли досят, captchasolverproxy.zip, про который я писал ранее, выложил на рапиду. Ссылка под катом:
http://rapidshare.de/files/38886485/captchasolverproxy.zip.html
Прочитать полностью...
20 мар. 2008 г.
Поезд Яндекс - Магадан отправляется со станции Мастера Ласто.
Мастер Ласто классно перевел на русский язык сообщение от яндекса о введении в жизнь плана "В Магадан, ссуки продажные". Яндексу хочется "оптимизировать выдачу поисковой машины", а на самом деле: отобрать денег у сапы и оптимизаторов-продвигаторов. Мастер Ласто ещё летом предрекал скорую погибель сапы и предлага срочно переходить на промотекст (ссылка реферальная), ибо сайт не палится поисковиком за продажные ссылки. Сапа (ссылка реферальная) тем временем не дремала и тоже сделала контекст.
Опус Мастера Ласто.
А почему я переживаю? В рунете я только балуюсь, нацелен на буржунет, а гугл ещё с осени понижает ПР за продажу ссылок, а тут ещё и ханипоты юзать начал. Так что ничего страшного не случилось.
Прочитать полностью...
Досят блог Эли, видимо за ломалки капчей для форума PHPBB2
Не успели все порадоваться опенсорс ломалке капчей для форума PHPBB2, а уже досят блог Эли. This is a fantastic guest post by Harry over at DarkSEO Programming. His blog has some AWESOME code examples and tutorials along with an even deeper explanation of this post so definitely check it out and subscribe so he’ll continue blogging. This post is a practical explanation of how to crack phpBB2 easily. You need to know some basic programming but 90% of the code is written for you in free software. Programs you Need C++/Visual C++ express edition - On Linux everything should compile simply. On windows everything should compile simply, but it doesn’t always (normally?). Anyway the best tool I found to compile on windows is Visual C++ express edition. Download GOCR - this program takes care of the character recognition. Also splits the characters up for us . It’s pretty easy to do that manually but hey. Download ImageMagick - this comes with Linux. ImageMagick lets us edit images very easily from C++, php etc. Install this with the development headers and libraries. Download from here A (modified) phpbb2 install - phpBB2 will lock you out after a number of registration attempts so we need to change a line in it for testing purposes. After you have it all working you should have a good success rate and it will be unlikely to lock you out. Find this section of code: (it’s in includes/usercp_register.php) Make it this: if ($row = $db->sql_fetchrow($result)) Possibly a version of php and maybe apache web server on your desktop PC. I used php to automate the downloading of the captcha because it’s very good at interpreting strings and downloading static web pages. Getting C++ Working First The problem on windows is there is a vast number of C++ compilers, and they all need setting up differently. However I wrote the programs in C++ because it seemed the easiest language to quickly edit images with ImageMagick. I wanted to use ImageMagick because it allows us to apply a lot of effects to the image if we need to remove different types of backgrounds from the captcha. Once you’ve installed Visual C++ 2008 express (not C#, I honestly don’t know if C# will work) you need to create a Win32 Application. In the project properties set the include path to something like (depending on your imagemagick installation) C:\Program Files\ImageMagick-6.3.7-Q16\include and the library path to C:\Program Files\ImageMagick-6.3.7-Q16\lib. Then add these to your additional library dependencies CORE_RL_magick_.lib CORE_RL_Magick++_.lib CORE_RL_wand_.lib. You can now begin typing the programs below. If that all sounds complicated don’t worry about it. This post covers the theory of cracking phpBB2 as well. I just try to include as much code as possible so that you can see it in action. As long as you understand the theory you can code this in php, perl, C or any other language. I’ve compiled a working program at the bottom of this post so you don’t need to get it all working straight away to play with things. Getting started Ok this is a phpBB2 captcha: It won’t immediately be interpreted by GOCR because GOCR can’t work out where the letters start and end. Here’s the weakness though. The background is lighter than the text so we can exclude it by getting rid of the lighter colors. With ImageMagick we can do this in a few lines of C++. Type the program below and compile/run it and it will remove the background. I’ll explain it below. int main( int /*argc*/, char ** argv) // Initialize ImageMagick install location for Windows // load in the unedited image // remove noise // save image return(1); All this does is loads in the image, and then calls the function threshold attached to the image. Threshold filters out any pixels below a certain darkness. On linux you have to save the image as a .png however on windows GOCR will only read .pnm files so on linux we have to put the line instead: Ok that’s one part sorted. Problem 2. We now have another image that GOCR won’t be able to tell where letters start and end. It’s too grainy. What we notice though is that each unjoined dot in a letter that is surrounded by dots 3 pixels away should probably be connected together. So I add a piece of code onto the above program that looks 3 pixels to the right and 3 pixels below. If it finds any black dots it fills in the gaps. We now have chunky letters. GOCR can now identify where each letter starts and ends . We’re pretty much nearly done. void fill_holes(PixelPacket * pixels, int cur_pixel, int size_x, int size_y) ///////////// pixels to right ///////////////////// // first of all are we a black pixel, no point if we are not if(*(pixels+index)==Color("black")) ///////////// pixels to bottom ///////////////////// if(*(pixels+cur_pixel)==Color("black")) if(*(pixels+index)==Color("black")) } int main( int /*argc*/, char ** argv) // Initialize ImageMagick install location for Windows // load in the unedited image // remove noise ///////////////////////////////////////////////////////////////////////////////////////////////////// // define the view area that will be accessed via the image pixel cache // return a pointer to the pixels of the defined pixel cache // go through each pixel and if it is black and has black neighbors fill in the gaps // now that the operations on my_pixel_cache have been finalized // save image return(1); I admit this looks complicated on first view. However you definitely don’t have to do this in C++ though if you can find an easier way to perform the same task. All it does is remove the background and join close dots together. I’ve given the C++ source code because that’s what was easier for me, however the syntax can be quite confusing if you’re new to C++. Especially the code that accesses blocks of memory to edit the pixels. This is more a study of how to crack the captcha, but in case you want to code it in another language here’s the general idea of the algorithm that fills in the holes in the letters: 1. Go through each pixel in the picture. Remember where we are in a variable called cur_pixel NOTE: Just make sure you don’t let any variables go over the edge of the image otherwise you might crash your program. I used the same algorithm but modified it slightly so that it also looked 3 pixels below, however the steps were exactly the same. Training GOCR The font we’re left with is not recognized natively by GOCR so we have to train it. It’s not recognized partly because it’s a bit jagged. Assuming our cleaned up picture is called convert.pnm and our training data is going to be stored in a directory call data/ we’d type this. gocr -p ./data/ -m 256 -m 130 convert.pnm Just make sure the directory data/ exists (and is empty). I should point out that you need to open up a command prompt to do this from. It doesn’t have nice windows. Which is good because it makes it easier to integrate into php at a later date. Any letters it doesn’t recognize it will ask you what they are. Just make sure you type the right answer. -m 256 means use a user defined database for character recognition. -m 130 means learn new letters. You can find my data/ directory in the zip at the end of this post. It just saves you the time of going through checking each letter and makes it all work instantly. Speeding it up Downloading, converting, and training for each phpbb2 captcha takes a little while. It can be sped up with a simple bit of php code but I don’t want to make this post much longer. You’ll find my script at the end in my code package. The php code runs from the command prompt though by typing “php filename.php”. It’s sort of conceptual in the sense that it works, but it’s not perfect. Done Ok once GOCR starts getting 90% of the letters right we can reduce the required accuracy so that it guesses the letters it doesn’t know. Below I’ve reduced the accuracy requirement to 25% using -a 25. Otherwise GOCR prints the default underscore character even for slightly different looking characters that have already been entered. -m 2 means don’t use the default letter database. I probably could have used this earlier but didn’t. Ah well, it doesn’t do a whole lot. gocr -p ./data/ -m 256 -m 2 -a 25 convert.pnm We can get the output of gocr in php using: echo exec(”/full/path/gocr -p ./data/ -m 256 -m 2 -a 25 convert.pnm”); Alternatives In some instances you may not have access to GOCR or you don’t want to use it. Although it should be usable if you have access to a dedicated server. In this case I would separate the letters out manually and resize them all to the same size. I would then put them through a php neural network which can be downloaded from here FANN download It would take a bit of work but it should hopefully be as good as using GOCR. I don’t know how well each one reacts to letters which are rotated though. Neural networks simply memorize patterns. I haven’t checked the inner workings of GOCR. It looks complicated. My code All the code can be found here to crack phpBB2 captcha. In conclusion to this tutorial it’s a nightmare trying to port over all my code from linux to windows unless it’s written in Java . If only Java was small and quick as well. It’s worth stating that phpbb2 was easy to crack because the letters didn’t touch or overlap. If they had touched or overlapped it would probably have been very hard to crack. I plan to look at that line and square captcha that comes with phpBB3 over on my site and document how secure it is. Thanks for the awesome guest post Harry.
Выкладываю из ридера, может кому пригодится. Сам файл с исходниками вышлю по запросу в комментах. Блин, пока найти не могу, куда я его засунул :( Кто понимает С++ и английский - без труда напишет заново. Сорри. ! UPDATE ! Выложил для скачивания исходники ломалки капчей.
Итак гостевая статья Гарри на блоге Эли, картинки не существенные, там просто "проявляется" текст из капчи:
if ($row = $db->sql_fetchrow($result))
{
if ($row['attempts'] > 3)
{
message_die(GENERAL_MESSAGE, $lang['Too_many_registers']);
}
}
$db->sql_freeresult($result);
{
//if ($row[’attempts’] > 3)
//{
// message_die(GENERAL_MESSAGE, $lang[’Too_many_registers’]);
//}
}
$db->sql_freeresult($result);
using namespace Magick;
{
InitializeMagick(*argv);
Image phpBB("test.png");
phpBB.threshold(34000);
phpBB.write("convert.pnm");
}
// save image
phpBB.write("convert.png");
The background removed.
using namespace Magick;
{
int max_pixel, found;
found = 0;
max_pixel = cur_pixel+3; // the furthest we want to search
// set a limit so that we can't go over the end of the picture and crash
if(max_pixel>=size_x*size_y)
max_pixel = size_x*size_y-1;
if(*(pixels+cur_pixel)==Color("black"))
{
// start searching from the right backwards
for(int index=max_pixel; index>cur_pixel; index--)
{
// should we be coloring?
if(found)
*(pixels+index)=Color("black");
found=1;
}
}
found = 0;
max_pixel = cur_pixel+(size_x*3);
if(max_pixel>=size_x*size_y)
max_pixel = size_x*size_y-1;
{
for(int index=max_pixel; index>cur_pixel; index-=size_x)
{
// should we be coloring?
if(found)
*(pixels+index)=Color("black");
found=1;
}
}
{
InitializeMagick(*argv);
Image phpBB("test.png");
phpBB.threshold(34000);
// Beef up "holey" parts
/////////////////////////////////////////////////////////////////////////////////////////////////////
phpBB.modifyImage(); // Ensure that there is only one reference to
// underlying image; if this is not done, then the
// image pixels *may* remain unmodified. [???]
Pixels my_pixel_cache(phpBB); // allocate an image pixel cache associated with my_image
PixelPacket* pixels; // 'pixels' is a pointer to a PixelPacket array
// literally below we are selecting the entire picture
int start_x = 0;
int start_y = 0;
int size_x = phpBB.columns();
int size_y = phpBB.rows();
pixels = my_pixel_cache.get(start_x, start_y, size_x, size_y);
// this calls the function fill_holes from above
for(int index=0; index < size_x*size_y; index++)
fill_holes(pixels, index, size_x, size_y);
// ensure that the pixel cache is transferred back to my_image
my_pixel_cache.sync();
phpBB.write("convert.pnm");
}
2. Start three pixels to the right of cur_pixel. If it’s black color the pixels between this position and cur_pixel black.
3. Work backwards one by one until we reach cur_pixel again. If any pixels we land on are black then color the space in between them and cur_pixel black.
4. Go back to step 1 until we’ve been through every pixel in the picture
Прочитать полностью...
19 мар. 2008 г.
Tellinya советует, как ускорить парсинг до скорости света
Tellinya советует, как ускорить парсинг до скорости света на локальной машине под виндовс XP SP2 (не SP1) и XP x64 editions (может быть Vista тоже).
Проблема в том, что мелкософт ограничил число открытых коннектов ТСП/ИП в 10 штук в секунду, поэтому у него парсеры под виндой медленно работают, весь канал не засирают. Он нашел патчик для tcpip.sys, котрые увеличивает число сокетов до 1000! Переводить все не охота, оригнал там (англ. яз.).
Собственно патчи читать тут:
1. Remove the limit on TCP connection attempts
2. Tcp-Ip patch for XP64 SP2
ИМХО имеет смысл при мегабитном и более канале.
Прочитать полностью...
Я отменил модерацию комментов.
Я отменил модерацию комментов, а то людям не удобно писать. Включена обязательная модерация была по привычке от сплогов :)
Комменты могут оставлять все: Anyone - includes Anonymous Users. Всё равно у меня пока ни пиара, ни трафика, ни стриптиза с тремя нулями нет. Так что говнокомментов бояться нечего :) а то открываю, например, сейчас ридер, а там:
"Полезная информация. Возьму на заметку."
"спс за список будем юзать"
"я конечно предпалогал, но блин, не в таких количествах …"
"Мда. Молодца. Все оч понятно. Пасиба!"
"Классная сказочка! спасибо!"
"Да, очень классный и стремный праздник для парней."
Хоть бери и отписывайся от комментариев. А раньше так хорошо было - вордпресс отдавал комменты отдельно в рсс-ленту. А теперь там столько говна :(
Прочитать полностью...
18 мар. 2008 г.
Сервис Profit-project (профессиональный Центр Обслуживания Партнеров Рекламной Сети Яндекс) занимается рефспамом.
Сервис Profit-project (профессиональный Центр Обслуживания Партнеров Рекламной Сети Яндекс) занимается рефспамом.
Вот строка из моего серверного лога:
82.146.41.77 - - [17/Mar/2008:04:30:00 -0700] "GET / HTTP/1.1" 200 17702 "http://profit-project.su/" "-"
Линков с их морды на мою аптеку я что-то не заметил :)
А на сайте пишут красиво:
Мы позиционируем себя на рынке как динамичный и постоянно развивающийся проект, удовлетворяющий любые запросы вебмастеров. Основное правило нашей программы — делать Вашу работу комфортнее и прибыльнее. Мы не считаем Ваш трафик и не предоставляем услуги хостинга - все наши усилия нацелены на максимально эффективное обслуживание Ваших прибылей.
Других заходов с этого ИПа в предыдущие 7 дней не было ни одного
По этому ИПу открывается прикольный сайт "USAMA BIN LADEN - Aliases: Usama Bin Muhammad Bin Ladin, Shaykh Usama Bin Ladin, The Prince, The Emir, Abu Abdallah, Mujahid Shaykh, Hajj, The Director............SHOULD BE CONSIDERED ARMED AND DANGEROUS. IF YOU HAVE ANY INFORMATION CONCERNING THIS PERSON, PLEASE CONTACT YOUR LOCAL FBI OFFICE OR THE NEAREST AMERICAN EMBASSY OR CONSULATE."
Там тоже нет линков на мою аптеку :)
Прочитать полностью...