Детальная инструкция по применению Scrapebox для аутрича

Детальная инструкция по применению Scrapebox для аутрича

Павел Ляшенко
22 сентября, 2017

Данная статья — это детальное руководство по работе с программой ScrapeBox для аутрича. То есть, поиска релевантных сайтов, для их дальнейшего контакта и размещения обратных ссылок на них.

Структура руководства:

  1. Вводная
  2. Футпринты
  3. Сбор урожая
  4. Наглядная инструкция по каждому пункту
  5. Детальное видео со всеми нюансами

Вместо вступления

Прежде чем перейти к обзору Scrapebox (далее так же, или скрейпбокс, SB) следует сказать почему его можно использовать для работы со ссылками по аутричу и линкбилдингу в целом. О том, что такое аутрич можно прочитать в этой статье.

Детальная инструкция по применению Scrapebox для аутрича

Все, кто искал ссылки для линкбилдинга знают, что гораздо удобнее искать ссылки не только с помощью просто ключевых слов (например: travel guide, travel blog), но с помощью продвинутых поисковых формул (inurl:blog “travel guide” site:au).

Предположим, есть набор ключевых слов, по которым нужно найти площадки для размещения.

Вариаций для поиска даже по одному ключевому запросу может быть масса, если правильно это делать. Допустим, тематика сайта хоккей, и основное ключевое слово будет “hockey blog”.

Сделав поиск по этому ключевому запросу и просмотрев первые 10-20 страниц можно убедиться, что для наших целей выдачи не хватает.

Конечно, можно настроить гугл таким образом, чтобы он показывал на первой странице не 10 ссылок, а 100, и посмотреть 10 страниц выдачи, но и этого иногда не хватает.

Поразмыслив немного и применив формулы для поиска в гугл, простым способом можно расширить наше ключевое слово от 1 варианта до, например, 14 вариантов:

site:com «blog» hockey blog

site:com «advertise» hockey blog

site:com inurl:blog hockey blog

site:com «article» hockey blog

site:org «blog» hockey blog

site:org «advertise» hockey blog

site:org inurl:blog hockey blog

site:org «article» hockey blog

site:net «blog» hockey blog

site:net «advertise» hockey blog

site:net inurl:blog hockey blog

site:net «article» hockey blog

site:info «blog» hockey blog

site:info «advertise» hockey blog

С таким количеством запросов поисковая выдача будет гораздо релевантнее, чем с простыми запросами, но возникает другая проблема: сайты, которые будет нам показывать Google будут дублироваться, да и делать подряд все эти запросы руками достаточно утомительно.

Scrapebox решает сразу обе проблемы: делает массовые запросы в поисковую (поисковые) системы и убирает дублирующиеся сайты (на самом деле Scrapebox делает гораздо больше, об этом и поговорим в посте).

Также будут рассмотрены методы поиска ссылок для аутрича, которые частично были озвучены в этом посте.

1. Футпринты и поисковые формулы

Футпринт (дословно с англ footprint — след) — часть кода, урла (url) или текста на сайте, которая встречается часто или характеризует тот или иной тип сайта.

Допустим фраза “Powered by e107 Forum System” — является футпринтом и встречается на страницах форумов, которые построены на платформе под названием e107. Такую же общую черту можно увидеть на сайтах wordpress, blogspot и т д. Для поиска футпринтов можно использовать программу footprint factory или производить поиск руками.

Поисковые формулы (операторы) — команды/указания, которые отправляются поисковой системе для улучшения качества поисковой выдачи.

Операторы, которые можно использовать в Google:

“ ” — кавычки — точное наличие слова/фразы на странице.

site: — производит поиск по определенным сайтам или доменным зонам.

Как можно применять: site:com “travel guide” — покажет все сайты в доменной зоне .com; site:domain.com “keyword” покажет все страницы с ключевым словом на сайте domain.com.

intitle:/allintitle: — Покажет все страницы поисковой выдачи с вхождением ключевого слова в тайтле.

allinanchor:/inanchor: — покажет все страницы, на которых есть нужный нам анкор.

allinurl:/inurl: — произведет поиск по наличию в урле ключевого слова/конструкции.

filetype: — поиск по типу файла (pdf, jpg, mp3 и т д)

Операторы, которые можно использовать в Bing:

В Bing операторы site, filetype, inanchor, intitle, имеют такое же значение, как и в Google. Но в Bing есть один очень важный оператор, которым удобно пользоваться: language:. К примеру при поиске сайтов на французском языке можно использовать language:fr. В гугл для этого пришлось бы брать ключевые слова на французском языке и добавлять site:fr, site:ca и т д (поиск по языку в гугл решается не поисковыми операторами, а созданием отдельной поисковой системы в Scrapebox, об этом поговорим позже).

У многих поисковых систем есть поисковые операторы, найти их можно через поиск в Гугл (или других поисковых системах).

Перейдем к самому Scrapebox’у и уже по-ходу будем рассматривать аспекты и нюансы работы с ним.

Стоит отметить, что Scrapebox работает как обычный браузер (он не использует никакой свой алгоритм поиска доменов и т д), полностью имитирует работу браузера для выбранной поисковой машины.

Обзор главного окна

Так выглядит основное окно скрейпбокса:

Обзор главного окна

В верхнем левом углу находится окно «Harvester and keywords». В него помещаются ключевые слова, футпринты и т д.

Кнопка «М» (Merge — смешать) позволяет смешать ключевые слова со списком футпринтов/ключевых слов (файл в формате .txt). В нижнем левом углу окно «Select harvester and proxies» — вся работа с прокси происходит здесь.

Вверху по центру «URL’s harvested» — здесь производится работа со ссылками, которые собрал скрейпбокс. Левее — «Manage links» — создан для управления линками: фильтр урлов, доменов, черный список, минус список, импорт, экспорт и т. д. Ниже «Comment poster» — автоматический постер комментариев (обзора которого в данном туториале не будет).

Окно работы с ключевыми словами

Запишем ключевые слова в «Harvester and keywords».

Окно работы с ключевыми словами

Если ваши ключевые слова находятся в:

  • Отдельном файле;
  • Google drive;
  • DropBox;
  • One drive;

То их можно импортировать с помощью кнопки импорт.

Кнопка “More” помогает более детально обработать слова, которые уже импортированы в окно.

То их можно импортировать с помощью кнопки импорт.

Функция “More” позволяет:

  • Убрать дубликаты ключевых слов;
  • Убрать ключевые слова содержащие (не содержащие) определенное слово/символ;
  • Убрать ключевые слова содержащие (не содержащие) определенное слово/символ (которые содержатся в текстовом файле = подборку слов);
  • Перемешать ключевые слова;
  • Взять в кавычки все слова (очень удобная функция);
  • Убрать пробелы из слов.

Также можно использовать встроенные футпринты для платформ:

Окно с прокси

Работа с прокси это отдельная история. У скрейпбокса есть свои ресурсы с  прокси и есть возможность добавить прокси извне/купленные прокси.

Касательно купленных прокси, если скрейпинг будет производиться под гугл, то следует приобрести private proxies (не shared proxies). Shared proxies (общие/коллективные проски) — это прокси, которые рассчитаны на несколько человек, и если кто-то из пользователей скрейпил на гугл и его прокси забанили, то, соответственно, забанили и ваш прокси.

Private proxies (приватные/частные/личные/выделенные прокси) — ими пользуется только один человек и проблемы, описанной выше — не будет (разве что ваши прокси забанят по вашей вине). Сквозь года гугл все сильнее и сильнее ужесточает возможность парсинга/скрейпинга своей поисковой выдачи.

Если, к примеру, несколько лет назад можно было спокойно парсить выдачу с соотношением 1 соединение на 5 прокси — и этого было достаточно, чтобы прокси не забанили, то сейчас это соотношение должно быть (ориентировочно) 1 соединение на 30-50 прокси для обычных ключевых слов (travel guide), и 1 соединение на 50-80 прокси для парсинга с продвинутыми операторами (site:org «blog» hockey “5 comments” inurl:/2015/05/).

Чем сложнее оператор поиска — тем быстрее гугл банит ваши прокси (это связано с тем, что использование большого количества поисковых операторов выглядит для гугла как парсинг его выдачи, чем как обычные поисковые запросы).

Также следует отметить, что данные значения относительные и самое главное — понять, что работает для ваших целей — нужно все тестировать. Если прокси были уже в использовании кем-то и были забанены в прошлом гуглом — значит гугл их забанит еще быстрее.

Следовательно, следует сделать соотношение 1 соединение к 100 прокси или даже больше. Когда прокси забанены их восстановление занимает около 12-48 часов. Опять же, это связано с историей, которая стоит за прокси и их использованием. Также есть понятие как перманентный бан от гугла, когда прокси не восстанавливаются даже через 5 дней бана. На практике мы с таким не сталкивались.

Рассмотрим пример, когда у нас есть купленные private proxies. Загружаем прокси в окно работы с прокси. Нажимаем кнопку “Manage”:

Нажимаем кнопку “Manage”

После чего выбираем «Load proxies», и загружаем прокси в зависимости от того, где они у нас находятся (файл .txt, clipboard, и т д):

После чего выбираем «Load proxies»

Загруженные еще не проверенные прокси выглядят вот так:

не проверенные прокси выглядят вот так:

Перед тем, как перейти к тесту прокси заходим в “Connections”, и ставим “Proxy Manager”, “Proxy harvester” на максимально доступное кол-во соединений (в данном случае 500, при продвинутых настройках (ставим галочку “enable advanced settings” — слева внизу окна “connections, timeout and other settings”) максимальное значение — 3500 или пока сервер не “ляжет”), от этого зависит скорость проверки прокси.

Если у вас меньше 100 шт. прокси, то Harvester ставим на минимум, т. к. при минимальном кол-ве соединений время, через которое гугл (или другая поисковая система) «забанит» прокси стремится к бесконечности. Меньше соединений = дольше живут прокси.

Меньше соединений = дольше живут прокси

Далее нажимаем кнопку “Test proxies” > “Test all proxies”.

Test all proxies

Как мы видим, в данном случае, из 23х прокси все прокси анонимные, на “Google test result” рабочих 22 прокси, т. к. 1 прокси забанена гуглом (через данный прокси уже был произведен скрейп, восстановление занимает 12-48 часов).

Для того, чтобы оставить только те прокси, которые прошли гугл тест нажимаем “Filter” > “Keep proxies which passed the Google / Custom test”

Keep proxies which passed the Google / Custom test

Так же в этом окне можно отфильтровать прокси по скорости; выбрать только прокси которые прошли анонимный тест; убрать дубликаты; оставить/убрать прокси на определенных портах.

Важно: нажимаем “Save proxies”, т к если этот шаг игнорировать можно потерять все прокси и придется загружать все прокси заново.

Отдельно следует сказать о графе “Results”. Значение в ней контролирует объем выдачи для одного ключевого слова/футпринта.

Как это работает: в настройках Google на главной странице можно выбрать количество ссылок, которые будут показаны в поисковой выдаче: 10-100.

Scrapebox по-умолчанию использует 100 ссылок на одной странице. Таким образом вместо 10 запросов делается 1 запрос. Следовательно, если в ячейке “Results” стоит значение 100, то в поисковую систему будет производиться 1 запрос для 1 ключевого слова/футпринта. Если значение стоит 1000, то, по-умолчанию, будет произведено 10 запросов с 1 прокси.

Важно отметить, что даже выбрав “Use detailed harvester” и установив значение 1000 в ячейку “Results” с любой задержкой (delay) в окне харвестера от 0 до бесконечности сделает 10 запросов с одним ключевым словом/футпринтом и только потом включит задержку.

Таким образом прокси банятся гораздо быстрее и скрейпинг прекращается также быстро. Способы решения проблемы описаны в разделе о добавлении новой поисковой системы, но следует отметить, что не всегда целесообразно использовать 1000 результатов на 1 ключевое слово/футпринт.

не всегда целесообразно использовать 1000 результатов на 1 ключевое слово/футпринт

Огромное значение имеет та или иная поисковая система, чью выдачу вы хотите собрать. Выше мы много говорили о гугл: как, каким образом собрать его выдачу и какими проксями.

Но в скрейпбоксе по-умолчанию уже загружено более 30 поисковых систем и есть возможность добавить сторонние поисковые системы (об этом ниже), поэтому можно использовать также и другие поисковики.

Сначала попробуем с загруженными проксями собрать выдачу по всем поисковикам (кроме google, т к он точно работает) и посмотреть, что произойдет:

Сначала попробуем с загруженными проксями собрать выдачу по всем поисковикам

Из многих поисковиков не получилось собрать результат (harvested = 0), ошибки могут быть разные, но, в основном, это связано с тем, что урлы поисковых систем и данные в них могли измениться с момента добавления поисковика в скрейпбокс.

Чтобы это исправить следует зайти в неработающую в скрейпбоксе поисковую систему, посмотреть урл ее выдачи, урлы страниц и добавить поисковую систему в скрейпбокс.

Добавить свою поисковую систему

Можно также добавить поисковую систему, которой нет в скрейпбоксе или уточнить страну/язык страны, выдачу которой нужно собрать. Выдача по стране зависит не только от доменной зоны поисковой системы (google.com, google.de и т д) и языка, но и от страны, в которой расположен сервер с прокси.

Страны:

Страны:

Чтобы изменить/добавить поисковую систему заходим в “Settings” > “Harvester Engines Configuration”

Harvester Engines Configuration

Появляется следующее окно:

Появляется следующее окно

Предположим, нам нужна выдача немецком языке.

Для этого меняем в “Query string” (строка запроса) url на .de (доменную зону google.com на google.de), переименовываем “Display name” (Отображаемое имя) на Google DE, и значение hl=en на hl=de. В последней формуле hl — это язык хоста (host language), а en тип языка — в данном случае это английский (english).

Мы заменили en на de для немецкого языка (hl=de). Если нужно парсить другие языки — смотрим, например, эту таблицу (столбец code 2) и меняем символы в соответствии с нужным языком. Остальные показатели просто копируем из предыдущей поисковой системы (Google).

После чего нажимаем “Add as new engine” (добавить как новую поисковую систему). Теперь этот вариант поиска можно выбрать в harvesting.

Тем не менее пройдемся по основным функциям вкладки.

Вкладка Engine Definition:

  • Display name — Имя поисковой системы.
  • Окно “Query string” (строка запроса) для гугла содержит примерно такой урл:

http://www.google.de/search?complete=0&hl=de&q={KEYWORD}&num=100&start={PAGENUM}&filter=0&pws=0 ,

где {KEYWORD} — ключевое слово/футпринт по которому делается запрос; &num=100 — количество ссылок на странице (в данном случае 100 штук), за изменение/увеличение этого значения отвечает окно page inc (page increase — увеличение номера страницы) — в окне стоит значение 100 — то есть следующее значение будет 200 и т д.; &start={PAGENUM} — начальный номер страницы при поиске, за это отвечает окно page start (начальная страница) — для гугла значение 0;

  • SSL Connection Type — Тип SSL соединения. Для автоматического определения типа соединения можно использовать функцию SSL Auto.
  • Окно Delay отвечает за задержку (паузу) между запросами. Как было написано выше в разделе о прокси и харвестере — по-умолчанию при значении результата 1000 даже на detailed harvester будет сделано сначала подряд 10 запросов и только потом будет включена заданная пауза (delay). То есть то значение, которое будет поставлено в delay в Engine Definition будет отвечать за паузу между запросами в поисковую систему (между отправкой урлов в харвестер).
  • Just before url — символы, которые должны быть перед началом урла;  right after url — символы, которые должны быть сразу после урла; must be in link — что обязательно должна содержать искомая ссылка; must not be in link — что ссылка не должна содержать; marker for next page — структура маркера (кнопки) следующей страницы, character translation — транскрипция символов (%2F означает / и т д).

Например урл ниже — ссылка на сайт scrapebox из поисковой выдачи гугла. Все данные выше применяются для того, чтобы распарсить урл и получить ссылку.

https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwiE2OTDy6TWAhXIK5oKHV-6A-kQFgglMAA&url=http%3A%2F%2Fwww.scrapebox.com%2F&usg=AFQjCNHWcROJg1AoAuxeURwraVRONvVqTA

В Additional header/settings находятся функции:

  • выбор юзерагента;
  • следовать за редиректом (301/302);
  • другие функции.

Сбор урожая

Переходим непосредственно к Harvesting.

Как говорилось ранее есть два варианта сбора ссылок: Custom Harvester и Detailed Harvester.

Окно Custom Harvester выглядит так:

Сбор урожая

Особенности работы Custom Harvester:

  • Может парсить одновременно все установленные поисковые системы;
  • По-умолчанию работает быстрее, чем Detailed Harvester;
  • Отсутствует функция Delay;
  • показывается время, в течении которого работает скрейпбокс;
  • отображается скорость сбора урлов в секунду, также отображается максимальная скорость за данный скрейпинг;
  • есть статус собранных ссылок; ссылок, отправленных в черный список; ошибок (ошибки являются индикатором того, что прокси забанены поисковой системой); и статус сбора ссылок;
  • есть процентный показатель всего процесса работы данного скрейпинга;
  • есть только функция старт и стоп (нет функции пауза);
  • максимальное количество параллельных соединений, которые можно установить — 3500.

Окно Detailed Harvester выглядит так:

Окно Detailed Harvester выглядит так:

Особенности работы Detailed Harvester:

  • есть функция delay между запросами;
  • можно использовать одновременно не более 4х поисковых систем;
  • видно в режиме журнала сколько собрано ссылок из поисковой выдачи по определенному ключевому слову, какой прокси для этого был использован, сколько страниц поисковой системы было проанализировано, через какую поисковую систему проводился сбор;
  • есть возможность приостановить скрейпинг (пауза);
  • количество соединений, которые можно установить — 1.

Начинаем работу с Detailed Harvester:

Нажимаем “Start Harvesting”

Начинаем работу с Detailed Harvester

Появляется уже знакомое нам окно:

Появляется уже знакомое нам окно

Ставим галочки на нужные поисковые системы. ВАЖНО: Окно “Delay in seconds” контролирует задержку между запросами к поисковику от скрейпбокса.

О показателе Delay мы говорили ранее, повторю лишь одно — все нужно тестировать и определить экспериментальным путем какой Delay лучше всего подходит под ваши задачи.

Нажимаем кнопку “start”. После чего начинается «сбор урожая» линков.

После чего начинается «сбор урожая» линков

Когда сбор закончился, убираем дублирующиеся урлы (или домены, в зависимости от потребностей).

Также можно создать черный список доменов/доменных зон, которые ни при каких условиях не будут использоваться (например .in, .ch и т д).

Также можно создать черный список доменов/доменных зон, которые ни при каких условиях не будут использоваться

Вот краткая выдержка моего черного списка для аутрича:

facebook.com — и домены прочих социальных сетей не годятся для аутрича;

.pdf — и прочие расширения файлов (хотя если поиск производится ради доменов (не урлов), файловые расширения, теоретически, можно проигнорировать);

forum — и все вариации страниц форумов (viewtopic.php и т д);

Лайфхак: самый удобный оператор для получения максимально чистой выдачи (для выдачи, которую очень удобно контролировать) и поиска площадок — inurl:.

Это обусловлено тем, что с помощью скрейпбокса все, что должно или не должно находится в урле — может быть отрегулировано очень простым способом.

Допустим, берем формулу inurl:/2015/01/top-3. Данная формула вернет нам сайты с примерно такой же структурой урла. После того, как мы получили выдачу, нажимаем remove/filter -> remove url’s containing… -> пишем то, что было в после оператора inurl:, в нашем случае /2015/01/top-3. Таким образом из выдачи будет удалено все, что не содержит  последовательность /2015/01/top-3.

Scrapebox Alexa Rank Checker

Scrapebox Addons — тема для отдельной статьи, расскажем только о Alexa rank Checker.

Scrapebox Alexa Rank Checker

Во вкладке “Addons” выбираем “Alexa Rank checker”

Во вкладке “Addons” выбираем “Alexa Rank checker”

Далее выбираем “import url’s”>”import url’s from scrpebox harvester“. Также здесь можно выбрать кол-во соединений на 1 прокси и таймаут — время, через которое попытка соединения с сайтом alexa.com будет завершена, если прокси не будет отвечать. Нажимаем “start”.

Нажимаем “start”

После завершения процесса можно отфильтровать прямо в окне аддона ссылки по значению алексы, больше которого следует удалить ссылки. Еще можно экспортировать данные в Excel.

Пустые строки из окна аддона в Excel будут отмечены значением -1, это означает, что показатель Alexa для этого сайта отсутствует.

Вместо вывода

Это лишь малая часть того, что может делать скрейпбокс и как его можно использовать для аутрича. Отдельного обзора требуют Аддоны (приложения) и плагины которые доступны в скрейпбокс, которые расширяют его возможности и позволяют автоматизировать его работу.

Детальный скринкаст по ScrapeBox

Про все выше сказанное с наглядными примерами:

А что вы думаете по этому поводу? Давайте обсудим в комментариях!

Понравилась статья? Получай свежие статьи первым по e-mail

Оцените статью:
совсем плохоплохонормальнохорошокласс (14 оценок, средняя: 4,43 из 5)
Загрузка...
  • огонь! хочу такие материалы регулярно! здорово бы в формате скринкастов!

  • Gramatik_US

    Как добавить Yandex к списку поисковых систем? Если это возможно.

  • Привет. Столько букв, что легко делает КейКоллектор, слышали о таком?

    • привет, все что там описано кей коллектор не делает, это факт
      он у нас есть почти у каждого сеошника, но задачи у него другие — сбор семантики

  • Василий Голиней

    А є інші, більш простіші в налаштуванні програми із таким функціоналом?

  • бегло просмотрел, под рунет он пойдет?

  • O2

    Прога за 100$, легче ручками собрать… Плюс те версии что есть в рунете, корявые и бесполезные. Это не считая еще проксей..

  • denis

    Вопрос не по теме у вас есть статья или инфа о копипасте, неуникальном контенте и т. п. Как продвигаться и т. п. Имеет ли смысл использовать PLR (Private Label Rights) статьи и вообще что это такое.

  • Спасибо за статью!
    Вопрос вот где норм прокси взять? Те, что есть по умолчанию дают скрейпить то?

  • Никита Шестопал

    И все-таки, и если зашла тема, возможно ли сделать тоже самое с кейколлектором, вплоть до пошаговой инструкции (желательно под парсинг Украины) ? Спасибо