Парсинг Гугла
Основы парсинга
Парсинг - это процесс сбора ресурсов (сайтов). Сбора не именно сайтов, а их адресов. Мы эти ресурсы собираем для последующего в них спама. Парсить можно все что угодно - гостевые книги, форумы, блоги, вики, главное чтобы в них можно было оставить свое сообщение со ссылкой на свой дор.
Запрос - это то, что мы вводим в поисковике.
Выдача - это те сайты, которые выдает поисковик на наш запрос.
Далее хочу заметить, что наиболее важное в парсинге это умение правильно пользоваться поисковиком. Поэтому нужно знать синтаксис запросов. Я остановлюсь на гугле т.к. у него самая большая база данных, относительно других поисковиков.
Синтаксис запросов гугла.
1)inurl:"xxx" - поисковик выдаст все сайты у адресе которых найдет ххх, вместо ххх мы можем вставить любое другое слово, например guestbook,forum и т.д.
2)intitle:"xxx" - поисковик выдаст все сайты в заголовке которых найдет ххх. Опять же вместо ххх может быть любое слово.
3)site:.xxx.com - поисковик выдаст все страницы с домена xxx.com, вместо ххх.соm может быть любой домен любого уровня. Это может быть jopa.mail.ru или например просто .ru, если мы просто оставим .ru, то поисковик выдаст нам все сайты с доменной зоны .ru. Вместо .ru могут быть .com, .org, .net и т.д.
4)intext:"xxx" - поисковик выдаст нам все сайты в тексте у которых было найдено слово ххх. Вместо ххх - любое слово.
5)"ххх" - поисковик выдаст нам сайты в которых было найдено слово ххх (найденно было везде в урле или в тексте или в заголовке, неважно).
6) -"ххх" - поисковик выдаст нам все сайты исключая те, в которых было найдено слово ххх. После минуса также могут стоять inurl:"xxx" intitle:"xxx" site:.xxx.com intext:"xxx" и др.
Теперь приступим, я покажу на конкретном примере как собирать базу с помощью аллсубмитера. Давайте соберем, ну скажем тип гостевой - gbook.php?a=sign. Эти гостевые имеют одинаковые окончания При вводе в гугле inurl:"gbook.php?a=sign" в гугле их ~ 10,5К. Но гугл не выдает больше 1000 результатов с запроса, что же делать, как собрать больше 1К? Для этого необходимо много раз сузить запрос, обязательно чтобы выдача по запросу не превышала тысячу сайтов, таким образом мы можем собрать все результаты. Аналогией может быть то, что с девочки не снимешь всю одежду сразу одним махом, сначала одно, потом другое, потом лифчик и т.д. В результате она все равно станет голой, и трахаться будет тот, который снял всю одежду, а не тот, который попробовав снять все сразу одним махом, снял только кепку и подумал что ничего другого с нее не снимешь. Это я к тому что не заканчивается парсинг сбором гостевых по запросу inurl:"gbook.php?a=sign", но с него начинается. Желательно сделать запрос даже таким
inurl:"gbook.php?a=sign" -"error" -"warning" ,таким образом мы убираем часть плохих нерабочих сайтов.
После того как мы создали новую базу данных а allsubmitere, вводим в браузере программы google.com, и вводим там запрос. (Необходимо чтобы в гугле было поставленно - "выдавать по 100 урлов на странице", это ускорит сбор парсером аллсубмитера),
inurl:"gbook.php?a=sign" site:.com, т.е. соберем все гесты с доменной зоны .com, опять проделаем ту же процедуру сбора (см. картинки)
потом другой запрос
inurl:"gbook.php?a=sign" site:.net
inurl:"gbook.php?a=sign" site:.biz
inurl:"gbook.php?a=sign" site:.org
Вообще можно пребрать все типы доменов.
site:.com
site:.net
site:.biz
site:.org
site:.in
site:.name
site:.ru
site:.fr
site:.it
site:.edu
site:.gov
site:.mil
site:.info
site:.au
site:.at
site:.by
site:.be
site:.bg
site:.ca
site:.cn
site:.cz
site:.dk
site:.eg
site:.de
site:.gr
site:.hu
site:.ie
site:.il
site:.jp
site:.us
site:.uk
site:.ua
site:.ch
site:.se
site:.es
site:.pl
site:.nl
site:.ro
site:.to
site:.mx
Алсубмитер будет добавлять базу только уникальные домены, поэтому не стоит бояться делать любые запросы, дубликатов не будет
Затем можно сделать такие запросы
inurl:"guestbook/gbook.php?a=sign"
inurl:"gbook/gbook.php?a=sign"
inurl:"gb/gbook.php?a=sign"
inurl:"guest/gbook.php?a=sign"
А потом сделать такую фишку
inurl:"gbook.php?a=sign" - inurl:"guestbook/gbook.php?a=sign" -inurl:"gbook/gbook.php?a=sign" -inurl:"gb/gbook.php?a=sign" -inurl:"guest/gbook.php?a=sign"
т.е. отсеить то что уже напарсилось
Можно комбинировать самые и самые разные запросы вместе, можно используя “-”
отсеивать то, что вы уже напарсили, главное сделать как можно больше запросов.
Примеры:
inurl:"joy.cgi" -"error" -"warning" +"xanax"
inurl:"seo-joy.cgi" -"error" -"warning" +"xanax"
inurl:"stlfbbs.cgi" -"error" -"warning" +"xanax"
inurl:"light.cgi" -"error" -"warning" +"xanax"
inurl:"skbbs.cgi" -"error" -"warning" +"xanax"
inurl:"stlfbbs.cgi" -"error" -"warning" +"xanax"
inurl:"berry.cgi" -"error" -"warning" +"xanax"
inurl:"guestbook/sign.php" -"error" -"warning" +"xanax"
inurl:"gbook.php?a=sign" -"error" -"warning" +"xanax"
inurl:"guestbook.php?act=new" -"error" -"warning" +"xanax"
inurl:"aska.cgi" -"error" -"warning" +"xanax"
inurl:"aska2.cgi" -"error" -"warning" +"xanax"
inurl:"aska3.cgi" -"error" -"warning" +"xanax"
inurl:"aska4.cgi" -"error" -"warning" +"xanax"
inurl:"aska5.cgi" -"error" -"warning" +"xanax"
inurl:"aska6.cgi" -"error" -"warning" +"xanax"
inurl:"aska7.cgi" -"error" -"warning" +"xanax"
inurl:"aska8.cgi" -"error" -"warning" +"xanax"
inurl:"dcguest.cgi?action=add_form" -"error" -"warning" +"xanax"
inurl:"addentry.php" -"error" -"warning" +"xanax"
inurl:"upbbs.cgi" -"error" -"warning" +"xanax"
inurl:"upbbs2.cgi" -"error" -"warning" +"xanax"
inurl:"epad.cgi" -"error" -"warning" +"xanax"
inurl:"epad1.cgi" -"error" -"warning" +"xanax"
inurl:"epad2.cgi" -"error" -"warning" +"xanax"
inurl:"epad3.cgi" -"error" -"warning" +"xanax"
inurl:"epad4.cgi" -"error" -"warning" +"xanax"
inurl:"epad5.cgi" -"error" -"warning" +"xanax"
inurl:"kerobbs.cgi" -"error" -"warning" +"xanax"
inurl:"kerobbs2.cgi" -"error" -"warning" +"xanax"
inurl:"apeboard.cgi" -"error" -"warning" +"xanax"
inurl:"clip.cgi" -"error" -"warning" +"xanax"
inurl:"clip2.cgi" -"error" -"warning" +"xanax"
inurl:"clip3.cgi" -"error" -"warning" +"xanax"
inurl:"clip4.cgi" -"error" -"warning" +"xanax"
inurl:"clip5.cgi" -"error" -"warning" +"xanax"
inurl:"dcguest.cgi" -"error" -"warning" +"xanax"
inurl:"joyful.cgi" -"error" -"warning" +"xanax"
inurl:"joyful2.cgi" -"error" -"warning" +"xanax"
inurl:"joyful3.cgi" -"error" -"warning" +"xanax"
inurl:"joyful4.cgi" -"error" -"warning" +"xanax"
inurl:"msgbrd.cgi" -"error" -"warning" +"xanax"
inurl:"mimic.cgi" -"error" -"warning" +"xanax"
inurl:"mimic2.cgi" -"error" -"warning" +"xanax"
inurl:"c-board.cgi" -"error" -"warning" +"xanax"
inurl:"wforum.cgi" -"error" -"warning" +"xanax"
inurl:"nmaruchan.cgi" -"error" -"warning" +"xanax"
inurl:"krbbs.cgi" -"error" -"warning" +"xanax"
inurl:"thread.cgi" -"error" -"warning" +"xanax"
inurl:"message.cgi" -"error" -"warning" +"xanax"
inurl:"hiline.cgi" -"error" -"warning" +"xanax"
inurl:"mezase.cgi" -"error" -"warning" +"xanax"
inurl:"phello.cgi" -"error" -"warning" +"xanax"
inurl:"sicharou.cgi" -"error" -"warning" +"xanax"
inurl:"simbbs.cgi" -"error" -"warning" +"xanax"
inurl:"iruka.cgi" -"error" -"warning" +"xanax"
inurl:"ekiden.cgi" -"error" -"warning" +"xanax"
inurl:"tnote.cgi" -"error" -"warning" +"xanax"
inurl:"bbs.cgi" -"error" -"warning" +"xanax"
inurl:"bbs0.cgi" -"error" -"warning" +"xanax"
inurl:"bbs1.cgi" -"error" -"warning" +"xanax"
inurl:"bbs2.cgi" -"error" -"warning" +"xanax"
inurl:"bbs3.cgi" -"error" -"warning" +"xanax"
inurl:"bbs4.cgi" -"error" -"warning" +"xanax"
inurl:"bbs5.cgi" -"error" -"warning" +"xanax"
inurl:"bbs6.cgi" -"error" -"warning" +"xanax"
inurl:"bbs7.cgi" -"error" -"warning" +"xanax"
inurl:"bbs8.cgi" -"error" -"warning" +"xanax"
inurl:"bbs9.cgi" -"error" -"warning" +"xanax"
inurl:"bbs10.cgi" -"error" -"warning" +"xanax"
inurl:"bbs11.cgi" -"error" -"warning" +"xanax"
inurl:"bbs12.cgi" -"error" -"warning" +"xanax"
inurl:"bbs13.cgi" -"error" -"warning" +"xanax"
inurl:"bbs14.cgi" -"error" -"warning" +"xanax"
inurl:"bbs15.cgi" -"error" -"warning" +"xanax"
inurl:"bbs16.cgi" -"error" -"warning" +"xanax"
inurl:"bbs17.cgi" -"error" -"warning" +"xanax"
inurl:"bbs18.cgi" -"error" -"warning" +"xanax"
inurl:"bbs19.cgi" -"error" -"warning" +"xanax"
inurl:"bbs20.cgi" -"error" -"warning" +"xanax"
inurl:"bbs21.cgi" -"error" -"warning" +"xanax"
inurl:"bbs22.cgi" -"error" -"warning" +"xanax"
inurl:"bbs23.cgi" -"error" -"warning" +"xanax"
inurl:"bbs24.cgi" -"error" -"warning" +"xanax"
inurl:"bbs25.cgi" -"error" -"warning" +"xanax"
inurl:"bbs26.cgi" -"error" -"warning" +"xanax"
inurl:"bbs27.cgi" -"error" -"warning" +"xanax"
inurl:"bbs28.cgi" -"error" -"warning" +"xanax"
inurl:"bbs29.cgi" -"error" -"warning" +"xanax"
inurl:"bbs30.cgi" -"error" -"warning" +"xanax"
inurl:"bbs31.cgi" -"error" -"warning" +"xanax"
inurl:"bbs32.cgi" -"error" -"warning" +"xanax"
inurl:"bbs33.cgi" -"error" -"warning" +"xanax"
inurl:"bbs34.cgi" -"error" -"warning" +"xanax"
inurl:"bbs35.cgi" -"error" -"warning" +"xanax"
inurl:"bbs36.cgi" -"error" -"warning" +"xanax"
inurl:"bbs37.cgi" -"error" -"warning" +"xanax"
inurl:"bbs38.cgi" -"error" -"warning" +"xanax"
inurl:"bbs39.cgi" -"error" -"warning" +"xanax"
inurl:"bbs40.cgi" -"error" -"warning" +"xanax"
inurl:"bbs41.cgi" -"error" -"warning" +"xanax"
inurl:"bbs42.cgi" -"error" -"warning" +"xanax"
inurl:"bbs43.cgi" -"error" -"warning" +"xanax"
inurl:"bbs44.cgi" -"error" -"warning" +"xanax"
inurl:"bbs45.cgi" -"error" -"warning" +"xanax"
inurl:"bbs46.cgi" -"error" -"warning" +"xanax"
inurl:"bbs47.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs0.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs1.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs2.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs3.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs4.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs5.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs6.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs7.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs8.cgi" -"error" -"warning" +"xanax"
inurl:"yybbs9.cgi" -"error" -"warning" +"xanax"
inurl:"fantasy.cgi" -"error" -"warning" +"xanax"
inurl:"fantasy1.cgi" -"error" -"warning" +"xanax"
inurl:"fantasy2.cgi" -"error" -"warning" +"xanax"
inurl:"fantasy3.cgi" -"error" -"warning" +"xanax"
inurl:"petit.cgi" -"error" -"warning" +"xanax"
inurl:"petit1.cgi" -"error" -"warning" +"xanax"
inurl:"petit2.cgi" -"error" -"warning" +"xanax"
inurl:"petit3.cgi" -"error" -"warning" +"xanax"
inurl:"petit4.cgi" -"error" -"warning" +"xanax"
inurl:"petit5.cgi" -"error" -"warning" +"xanax"
inurl:"petit6.cgi" -"error" -"warning" +"xanax"
inurl:"guest.cgi" -"error" -"warning" +"xanax"
inurl:"guest2.cgi" -"error" -"warning" +"xanax"
inurl:"gb.cgi" -"error" -"warning" +"xanax"
inurl:"gb2.cgi" -"error" -"warning" +"xanax"
inurl:"gbook.cgi" -"error" -"warning" +"xanax"
inurl:"gbook2.cgi" -"error" -"warning" +"xanax"
inurl:"gbook3.cgi" -"error" -"warning" +"xanax"
inurl:"gbook4.cgi" -"error" -"warning" +"xanax"
inurl:"tbbs.cgi" -"error" -"warning" +"xanax"
inurl:"pppbbs.cgi" -"error" -"warning" +"xanax"
inurl:"purybbs.cgi" -"error" -"warning" +"xanax"
inurl:"talkbbs.cgi" -"error" -"warning" +"xanax"
inurl:"upb.cgi" -"error" -"warning" +"xanax"
inurl:"updown.cgi" -"error" -"warning" +"xanax"






967-043