Данная статья — это детальное руководство по работе с программой ScrapeBox для аутрича. То есть, поиска релевантных сайтов, для их дальнейшего контакта и размещения обратных ссылок на них.
Структура руководства:
- Вводная
- Футпринты
- Сбор урожая
- Наглядная инструкция по каждому пункту
- Детальное видео со всеми нюансами
Вместо вступления
Прежде чем перейти к обзору Scrapebox (далее так же, или скрейпбокс, SB) следует сказать почему его можно использовать для работы со ссылками по аутричу и линкбилдингу в целом. О том, что такое аутрич можно прочитать в этой статье.
Все, кто искал ссылки для линкбилдинга знают, что гораздо удобнее искать ссылки не только с помощью просто ключевых слов (например: travel guide, travel blog), но с помощью продвинутых поисковых формул (inurl:blog “travel guide” site:au).
Предположим, есть набор ключевых слов, по которым нужно найти площадки для размещения.
Вариаций для поиска даже по одному ключевому запросу может быть масса, если правильно это делать. Допустим, тематика сайта хоккей, и основное ключевое слово будет “hockey blog”.
Сделав поиск по этому ключевому запросу и просмотрев первые 10-20 страниц можно убедиться, что для наших целей выдачи не хватает.
Конечно, можно настроить гугл таким образом, чтобы он показывал на первой странице не 10 ссылок, а 100, и посмотреть 10 страниц выдачи, но и этого иногда не хватает.
Поразмыслив немного и применив формулы для поиска в гугл, простым способом можно расширить наше ключевое слово от 1 варианта до, например, 14 вариантов:
site:com «blog» hockey blog
site:com «advertise» hockey blog
site:com inurl:blog hockey blog
site:com «article» hockey blog
site:org «blog» hockey blog
site:org «advertise» hockey blog
site:org inurl:blog hockey blog
site:org «article» hockey blog
site:net «blog» hockey blog
site:net «advertise» hockey blog
site:net inurl:blog hockey blog
site:net «article» hockey blog
site:info «blog» hockey blog
site:info «advertise» hockey blog
С таким количеством запросов поисковая выдача будет гораздо релевантнее, чем с простыми запросами, но возникает другая проблема: сайты, которые будет нам показывать Google будут дублироваться, да и делать подряд все эти запросы руками достаточно утомительно.
Scrapebox решает сразу обе проблемы: делает массовые запросы в поисковую (поисковые) системы и убирает дублирующиеся сайты (на самом деле Scrapebox делает гораздо больше, об этом и поговорим в посте).
Также будут рассмотрены методы поиска ссылок для аутрича, которые частично были озвучены в этом посте.
1. Футпринты и поисковые формулы
Футпринт (дословно с англ footprint — след) — часть кода, урла (url) или текста на сайте, которая встречается часто или характеризует тот или иной тип сайта.
Допустим фраза “Powered by e107 Forum System” — является футпринтом и встречается на страницах форумов, которые построены на платформе под названием e107. Такую же общую черту можно увидеть на сайтах wordpress, blogspot и т д. Для поиска футпринтов можно использовать программу footprint factory или производить поиск руками.
Поисковые формулы (операторы) — команды/указания, которые отправляются поисковой системе для улучшения качества поисковой выдачи.
Операторы, которые можно использовать в Google:
“ ” — кавычки — точное наличие слова/фразы на странице.
site: — производит поиск по определенным сайтам или доменным зонам.
Как можно применять: site:com “travel guide” — покажет все сайты в доменной зоне .com; site:domain.com “keyword” покажет все страницы с ключевым словом на сайте domain.com.
intitle:/allintitle: — Покажет все страницы поисковой выдачи с вхождением ключевого слова в тайтле.
allinanchor:/inanchor: — покажет все страницы, на которых есть нужный нам анкор.
allinurl:/inurl: — произведет поиск по наличию в урле ключевого слова/конструкции.
filetype: — поиск по типу файла (pdf, jpg, mp3 и т д)
Операторы, которые можно использовать в Bing:
В Bing операторы site, filetype, inanchor, intitle, имеют такое же значение, как и в Google. Но в Bing есть один очень важный оператор, которым удобно пользоваться: language:. К примеру при поиске сайтов на французском языке можно использовать language:fr. В гугл для этого пришлось бы брать ключевые слова на французском языке и добавлять site:fr, site:ca и т д (поиск по языку в гугл решается не поисковыми операторами, а созданием отдельной поисковой системы в Scrapebox, об этом поговорим позже).
У многих поисковых систем есть поисковые операторы, найти их можно через поиск в Гугл (или других поисковых системах).
Перейдем к самому Scrapebox’у и уже по-ходу будем рассматривать аспекты и нюансы работы с ним.
Стоит отметить, что Scrapebox работает как обычный браузер (он не использует никакой свой алгоритм поиска доменов и т д), полностью имитирует работу браузера для выбранной поисковой машины.
Обзор главного окна
Так выглядит основное окно скрейпбокса:
В верхнем левом углу находится окно «Harvester and keywords». В него помещаются ключевые слова, футпринты и т д.
Кнопка «М» (Merge — смешать) позволяет смешать ключевые слова со списком футпринтов/ключевых слов (файл в формате .txt). В нижнем левом углу окно «Select harvester and proxies» — вся работа с прокси происходит здесь.
Вверху по центру «URL’s harvested» — здесь производится работа со ссылками, которые собрал скрейпбокс. Левее — «Manage links» — создан для управления линками: фильтр урлов, доменов, черный список, минус список, импорт, экспорт и т. д. Ниже «Comment poster» — автоматический постер комментариев (обзора которого в данном туториале не будет).
Окно работы с ключевыми словами
Запишем ключевые слова в «Harvester and keywords».
Если ваши ключевые слова находятся в:
- Отдельном файле;
- Google drive;
- DropBox;
- One drive;
То их можно импортировать с помощью кнопки импорт.
Кнопка “More” помогает более детально обработать слова, которые уже импортированы в окно.
Функция “More” позволяет:
- Убрать дубликаты ключевых слов;
- Убрать ключевые слова содержащие (не содержащие) определенное слово/символ;
- Убрать ключевые слова содержащие (не содержащие) определенное слово/символ (которые содержатся в текстовом файле = подборку слов);
- Перемешать ключевые слова;
- Взять в кавычки все слова (очень удобная функция);
- Убрать пробелы из слов.
Также можно использовать встроенные футпринты для платформ:

Окно с прокси
Работа с прокси это отдельная история. У скрейпбокса есть свои ресурсы с прокси и есть возможность добавить прокси извне/купленные прокси.
Касательно купленных прокси, если скрейпинг будет производиться под гугл, то следует приобрести private proxies (не shared proxies). Shared proxies (общие/коллективные проски) — это прокси, которые рассчитаны на несколько человек, и если кто-то из пользователей скрейпил на гугл и его прокси забанили, то, соответственно, забанили и ваш прокси.
Private proxies (приватные/частные/личные/выделенные прокси) — ими пользуется только один человек и проблемы, описанной выше — не будет (разве что ваши прокси забанят по вашей вине). Сквозь года гугл все сильнее и сильнее ужесточает возможность парсинга/скрейпинга своей поисковой выдачи.
Если, к примеру, несколько лет назад можно было спокойно парсить выдачу с соотношением 1 соединение на 5 прокси — и этого было достаточно, чтобы прокси не забанили, то сейчас это соотношение должно быть (ориентировочно) 1 соединение на 30-50 прокси для обычных ключевых слов (travel guide), и 1 соединение на 50-80 прокси для парсинга с продвинутыми операторами (site:org «blog» hockey “5 comments” inurl:/2015/05/).
Чем сложнее оператор поиска — тем быстрее гугл банит ваши прокси (это связано с тем, что использование большого количества поисковых операторов выглядит для гугла как парсинг его выдачи, чем как обычные поисковые запросы).
Также следует отметить, что данные значения относительные и самое главное — понять, что работает для ваших целей — нужно все тестировать. Если прокси были уже в использовании кем-то и были забанены в прошлом гуглом — значит гугл их забанит еще быстрее.
Следовательно, следует сделать соотношение 1 соединение к 100 прокси или даже больше. Когда прокси забанены их восстановление занимает около 12-48 часов. Опять же, это связано с историей, которая стоит за прокси и их использованием. Также есть понятие как перманентный бан от гугла, когда прокси не восстанавливаются даже через 5 дней бана. На практике мы с таким не сталкивались.
Рассмотрим пример, когда у нас есть купленные private proxies. Загружаем прокси в окно работы с прокси. Нажимаем кнопку “Manage”:
После чего выбираем «Load proxies», и загружаем прокси в зависимости от того, где они у нас находятся (файл .txt, clipboard, и т д):
Загруженные еще не проверенные прокси выглядят вот так:
Перед тем, как перейти к тесту прокси заходим в “Connections”, и ставим “Proxy Manager”, “Proxy harvester” на максимально доступное кол-во соединений (в данном случае 500, при продвинутых настройках (ставим галочку “enable advanced settings” — слева внизу окна “connections, timeout and other settings”) максимальное значение — 3500 или пока сервер не “ляжет”), от этого зависит скорость проверки прокси.
Если у вас меньше 100 шт. прокси, то Harvester ставим на минимум, т. к. при минимальном кол-ве соединений время, через которое гугл (или другая поисковая система) «забанит» прокси стремится к бесконечности. Меньше соединений = дольше живут прокси.
Далее нажимаем кнопку “Test proxies” > “Test all proxies”.
Как мы видим, в данном случае, из 23х прокси все прокси анонимные, на “Google test result” рабочих 22 прокси, т. к. 1 прокси забанена гуглом (через данный прокси уже был произведен скрейп, восстановление занимает 12-48 часов).
Для того, чтобы оставить только те прокси, которые прошли гугл тест нажимаем “Filter” > “Keep proxies which passed the Google / Custom test”
Так же в этом окне можно отфильтровать прокси по скорости; выбрать только прокси которые прошли анонимный тест; убрать дубликаты; оставить/убрать прокси на определенных портах.
Важно: нажимаем “Save proxies”, т к если этот шаг игнорировать можно потерять все прокси и придется загружать все прокси заново.

Отдельно следует сказать о графе “Results”. Значение в ней контролирует объем выдачи для одного ключевого слова/футпринта.
Как это работает: в настройках Google на главной странице можно выбрать количество ссылок, которые будут показаны в поисковой выдаче: 10-100.
Scrapebox по-умолчанию использует 100 ссылок на одной странице. Таким образом вместо 10 запросов делается 1 запрос. Следовательно, если в ячейке “Results” стоит значение 100, то в поисковую систему будет производиться 1 запрос для 1 ключевого слова/футпринта. Если значение стоит 1000, то, по-умолчанию, будет произведено 10 запросов с 1 прокси.
Важно отметить, что даже выбрав “Use detailed harvester” и установив значение 1000 в ячейку “Results” с любой задержкой (delay) в окне харвестера от 0 до бесконечности сделает 10 запросов с одним ключевым словом/футпринтом и только потом включит задержку.
Таким образом прокси банятся гораздо быстрее и скрейпинг прекращается также быстро. Способы решения проблемы описаны в разделе о добавлении новой поисковой системы, но следует отметить, что не всегда целесообразно использовать 1000 результатов на 1 ключевое слово/футпринт.
Огромное значение имеет та или иная поисковая система, чью выдачу вы хотите собрать. Выше мы много говорили о гугл: как, каким образом собрать его выдачу и какими проксями.
Но в скрейпбоксе по-умолчанию уже загружено более 30 поисковых систем и есть возможность добавить сторонние поисковые системы (об этом ниже), поэтому можно использовать также и другие поисковики.
Сначала попробуем с загруженными проксями собрать выдачу по всем поисковикам (кроме google, т к он точно работает) и посмотреть, что произойдет:
Из многих поисковиков не получилось собрать результат (harvested = 0), ошибки могут быть разные, но, в основном, это связано с тем, что урлы поисковых систем и данные в них могли измениться с момента добавления поисковика в скрейпбокс.
Чтобы это исправить следует зайти в неработающую в скрейпбоксе поисковую систему, посмотреть урл ее выдачи, урлы страниц и добавить поисковую систему в скрейпбокс.
Добавить свою поисковую систему
Можно также добавить поисковую систему, которой нет в скрейпбоксе или уточнить страну/язык страны, выдачу которой нужно собрать. Выдача по стране зависит не только от доменной зоны поисковой системы (google.com, google.de и т д) и языка, но и от страны, в которой расположен сервер с прокси.
Страны:
Чтобы изменить/добавить поисковую систему заходим в “Settings” > “Harvester Engines Configuration”
Появляется следующее окно:
Предположим, нам нужна выдача немецком языке.
Для этого меняем в “Query string” (строка запроса) url на .de (доменную зону google.com на google.de), переименовываем “Display name” (Отображаемое имя) на Google DE, и значение hl=en на hl=de. В последней формуле hl — это язык хоста (host language), а en тип языка — в данном случае это английский (english).
Мы заменили en на de для немецкого языка (hl=de). Если нужно парсить другие языки — смотрим, например, эту таблицу (столбец code 2) и меняем символы в соответствии с нужным языком. Остальные показатели просто копируем из предыдущей поисковой системы (Google).
После чего нажимаем “Add as new engine” (добавить как новую поисковую систему). Теперь этот вариант поиска можно выбрать в harvesting.
Тем не менее пройдемся по основным функциям вкладки.
Вкладка Engine Definition:
- Display name — Имя поисковой системы.
- Окно “Query string” (строка запроса) для гугла содержит примерно такой урл:
http://www.google.de/search?complete=0&hl=de&q={KEYWORD}&num=100&start={PAGENUM}&filter=0&pws=0 ,
где {KEYWORD} — ключевое слово/футпринт по которому делается запрос; &num=100 — количество ссылок на странице (в данном случае 100 штук), за изменение/увеличение этого значения отвечает окно page inc (page increase — увеличение номера страницы) — в окне стоит значение 100 — то есть следующее значение будет 200 и т д.; &start={PAGENUM} — начальный номер страницы при поиске, за это отвечает окно page start (начальная страница) — для гугла значение 0;
- SSL Connection Type — Тип SSL соединения. Для автоматического определения типа соединения можно использовать функцию SSL Auto.
- Окно Delay отвечает за задержку (паузу) между запросами. Как было написано выше в разделе о прокси и харвестере — по-умолчанию при значении результата 1000 даже на detailed harvester будет сделано сначала подряд 10 запросов и только потом будет включена заданная пауза (delay). То есть то значение, которое будет поставлено в delay в Engine Definition будет отвечать за паузу между запросами в поисковую систему (между отправкой урлов в харвестер).
- Just before url — символы, которые должны быть перед началом урла; right after url — символы, которые должны быть сразу после урла; must be in link — что обязательно должна содержать искомая ссылка; must not be in link — что ссылка не должна содержать; marker for next page — структура маркера (кнопки) следующей страницы, character translation — транскрипция символов (%2F означает / и т д).
Например урл ниже — ссылка на сайт scrapebox из поисковой выдачи гугла. Все данные выше применяются для того, чтобы распарсить урл и получить ссылку.
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwiE2OTDy6TWAhXIK5oKHV-6A-kQFgglMAA&url=http%3A%2F%2Fwww.scrapebox.com%2F&usg=AFQjCNHWcROJg1AoAuxeURwraVRONvVqTA
В Additional header/settings находятся функции:
- выбор юзерагента;
- следовать за редиректом (301/302);
- другие функции.
Сбор урожая
Переходим непосредственно к Harvesting.
Как говорилось ранее есть два варианта сбора ссылок: Custom Harvester и Detailed Harvester.
Окно Custom Harvester выглядит так:
Особенности работы Custom Harvester:
- Может парсить одновременно все установленные поисковые системы;
- По-умолчанию работает быстрее, чем Detailed Harvester;
- Отсутствует функция Delay;
- показывается время, в течении которого работает скрейпбокс;
- отображается скорость сбора урлов в секунду, также отображается максимальная скорость за данный скрейпинг;
- есть статус собранных ссылок; ссылок, отправленных в черный список; ошибок (ошибки являются индикатором того, что прокси забанены поисковой системой); и статус сбора ссылок;
- есть процентный показатель всего процесса работы данного скрейпинга;
- есть только функция старт и стоп (нет функции пауза);
- максимальное количество параллельных соединений, которые можно установить — 3500.
Окно Detailed Harvester выглядит так:
Особенности работы Detailed Harvester:
- есть функция delay между запросами;
- можно использовать одновременно не более 4х поисковых систем;
- видно в режиме журнала сколько собрано ссылок из поисковой выдачи по определенному ключевому слову, какой прокси для этого был использован, сколько страниц поисковой системы было проанализировано, через какую поисковую систему проводился сбор;
- есть возможность приостановить скрейпинг (пауза);
- количество соединений, которые можно установить — 1.
Начинаем работу с Detailed Harvester:
Нажимаем “Start Harvesting”
Появляется уже знакомое нам окно:
Ставим галочки на нужные поисковые системы. ВАЖНО: Окно “Delay in seconds” контролирует задержку между запросами к поисковику от скрейпбокса.
О показателе Delay мы говорили ранее, повторю лишь одно — все нужно тестировать и определить экспериментальным путем какой Delay лучше всего подходит под ваши задачи.
Нажимаем кнопку “start”. После чего начинается «сбор урожая» линков.
Когда сбор закончился, убираем дублирующиеся урлы (или домены, в зависимости от потребностей).
Также можно создать черный список доменов/доменных зон, которые ни при каких условиях не будут использоваться (например .in, .ch и т д).
Вот краткая выдержка моего черного списка для аутрича:
facebook.com — и домены прочих социальных сетей не годятся для аутрича;
.pdf — и прочие расширения файлов (хотя если поиск производится ради доменов (не урлов), файловые расширения, теоретически, можно проигнорировать);
forum — и все вариации страниц форумов (viewtopic.php и т д);
Лайфхак: самый удобный оператор для получения максимально чистой выдачи (для выдачи, которую очень удобно контролировать) и поиска площадок — inurl:.
Это обусловлено тем, что с помощью скрейпбокса все, что должно или не должно находится в урле — может быть отрегулировано очень простым способом.
Допустим, берем формулу inurl:/2015/01/top-3. Данная формула вернет нам сайты с примерно такой же структурой урла. После того, как мы получили выдачу, нажимаем remove/filter -> remove url’s containing… -> пишем то, что было в после оператора inurl:, в нашем случае /2015/01/top-3. Таким образом из выдачи будет удалено все, что не содержит последовательность /2015/01/top-3.
Scrapebox Alexa Rank Checker
Scrapebox Addons — тема для отдельной статьи, расскажем только о Alexa rank Checker.
Во вкладке “Addons” выбираем “Alexa Rank checker”
Далее выбираем “import url’s”>”import url’s from scrpebox harvester“. Также здесь можно выбрать кол-во соединений на 1 прокси и таймаут — время, через которое попытка соединения с сайтом alexa.com будет завершена, если прокси не будет отвечать. Нажимаем “start”.
После завершения процесса можно отфильтровать прямо в окне аддона ссылки по значению алексы, больше которого следует удалить ссылки. Еще можно экспортировать данные в Excel.
Пустые строки из окна аддона в Excel будут отмечены значением -1, это означает, что показатель Alexa для этого сайта отсутствует.
Вместо вывода
Это лишь малая часть того, что может делать скрейпбокс и как его можно использовать для аутрича. Отдельного обзора требуют Аддоны (приложения) и плагины которые доступны в скрейпбокс, которые расширяют его возможности и позволяют автоматизировать его работу.
Детальный скринкаст по ScrapeBox
Про все выше сказанное с наглядными примерами:
А что вы думаете по этому поводу? Давайте обсудим в комментариях!