Автоматическая кластеризация

Содержание

  1. Введение
  2. Создание и настройка проекта
  3. Метод кластеризации
  4. Тип кластеризации
  5. Точность соответствия
  6. Дополнительные настройки
  7. Практическое применение

Введение

В этой статье будет раскрыта очень увлекательная и интересная тема.  Это Кластеризация. Выполним мы ее при помощи сервиса от rush-analytics.ru.

Важно!

Эта статья является дополнением к материалу о составлении семантического ядра. Так что перед прочтением обязательно разберитесь, как собирать семантику по Wordstat. Сделать это можно тут. Это понадобится в практической части статьи. Для понимания того, как  выполняется парсинг на основе стартовых ключей, для сбора всех имеющихся вариантов запросов. 

Давайте сначала разберем, что же это вообще такое. Кластеризация — это группировка ключей по смысловым группам, т.е. по группам с одинаковой поисковой направленностью, основанная на результатах выдачи ПС. Иными словами, логику можно описать так — система сравнивает запрос А и запрос Б. Если в выдаче, например, пять или более ссылок ведут на одни и те же страницы и по запросу А, и по запросу Б, тогда они идентичны по смыслу, а если менее пяти или вообще ни одной, тогда не идентичны по смыслу.

Такая модель, пожалуй, что и грубовата, но суть передает в достаточной для понимания мере. Данный способ, однозначно, имеет право на существование. Уже, как минимум, из-за того, что seo-специалист не может по определению разбираться в тонкостях терминов и направлений каждого бизнеса, который ему приходится продвигать. И, как следствие, высока вероятность, что будут упущены кластеры  или перепутаны смыслы. Пожалуй, что теоретического вступления достаточно. Поехали дальше.

Создание и настройка проекта

Первое, что нужно — это зайти в аккаунт rush analytics и кликнуть на “кластеризация” (рис. 1).

вход в сервис кластеризации

Рисунок №1 — Вход в сервис кластеризации

Далее кликаем “создать проект” (рис. 2)

создание проекта

Рисунок №2 — Создание проекта

Название проекту даем на свое усмотрение. Как вариант, можно называть доменным именем или общей тематикой сайта, с которым работаете. Следующий шаг — это выбор ПС. И вот именно на основе выдачи выбранной вами ПС, алгоритм будет сравнивать ключевые фразы. Я выбираю Google.com.ua (рис. 3). Если вы работаете по России, тогда стоит поработать с результатами Яндекса. Как минимум, для сравнения результатов.

Выбор поисковой системы для парсинга

Рисунок 3 — выбор поисковой системы для парсинга

И нажимаем “следующий шаг”. Данный раздел является важнейшим в процессе создания проекта. И настройки тут нужно устанавливать в зависимости от нашей задачи. Давайте разберем смысл этих настроек подробнее. Мы имеем 2 метода кластеризации и 3 типа, а также порог соответствия (рис. 4, 5, 6).

методы кластеризации

Рисунок №4 — Методы кластеризации

тип кластеризации

Рисунок №5 — Тип кластеризации

порог соответствия

Рисунок №6 — Порог соответствия

Метод кластеризации

Метод кластеризации —  это логика (набор условий), на основании которой ключ будет или не будет попадать в кластер. Данный сервис предоставляет нам два метода.

Soft — алгоритм, в зависимости от установленного типа, выявляет центральные (маркерные) ключевые фразы. Далее, сравнивает все оставшиеся ключи с маркерными. И, если ключ подобен по выдаче маркерному,  добавляет в кластер.

Важно!

Для того, чтобы попасть в кластер, ключ должен быть подобен маркерному, но не обязательно должен быть подобен по выдаче ключам, которые уже есть в кластере.   Метод наиболее уместен при работе с интернет-магазинами, для новостных/блоговых сайтов или сайтов услуг.

Hard — основная часть алгоритма полностью идентична soft. Но есть фундаментальное отличие — алгоритм дополнительно сравнивает запросы между собой. Т.е., для того, чтобы попасть в кластер, ключ будет проверяться на подобие не только с маркерным запросом, но и  с теми ключами, что уже есть в кластере. Как результат, происходит существенное повышение точности и уменьшение количества ключей в каждом кластере. Подходит для высококонкурентных и высокочастотных запросов.

Тип кластеризации

Тип кластеризации — это настройка, позволяющая определить логику выбора маркерных запросов. А также, будут ли создаваться новые маркерные запросы (кластеры).

Ручные маркеры — этот алгоритм наиболее удобен когда:

  • уже существует вся структура страниц (категории и т.д.) и все маркеры уже известны,
  • задача заключается в том, чтобы понять, как распределить имеющиеся ключи по существующим страницам,
  • задачи по расширению структуры НЕТ.

Т.е., вы просто создаете список названий всех ваших категорий, они и будут вашими маркерными запросами. И помечаете их цифрой 1. Далее, добавляете список имеющихся у вас ключей и помечаете их цифрой 0 (рис. 7). Все слова, которые не привязались к группам, останутся некластеризованными.

тип ручные маркеры

Рисунок №7 — Тип ручные маркеры

Кластеризация по Wordstat — этот алгоритм удобен в тех случаях, когда у сайта еще нет структуры, нет маркерных запросов. А все, что есть — это ключи из Wordstat и их частотность. И, чтобы получить из этого массива ключей структурированную семантику, т.е. группы потенциальных ключей под страницы (категории) сайта, нужно установить тип Wordstat.

Работает он так: загружаем таблицу с ключами и частотой (рис. 8).

тип wordstat

Рисунок 38 — Тип Wordstat

Весь массив сортируется по убыванию частоты. Алгоритм берет первый, самый высокочастотный ключ, за основу первого кластера. Далее, прогоняет все оставшиеся в списке ключи на предмет подобия. Маркерный запрос и все подобные ему перемещаются из этого списка в кластер.  В результате формируется первый кластер. После чего, берется самый высокочастотный ключ из оставшихся, и процедура повторяется вновь. И так, пока не будут обработаны все ключи.

Ручные маркеры + Wordstat — как, пожалуй, не сложно догадаться — это комбинирование двух типов. Т.е., стартовые маркеры будут определены вручную. Алгоритм проведет кластеризацию на основе выбранного метода. Но из тех ключей, что не войдут в кластеры для указанных в файле маркеров, будут выбраны дополнительные маркеры и проведена группировка. Этот тип наиболее предпочтителен , так как мы получим:

  • распределенную по группам семантику,
  • новые потенциальные страницы с уже готовыми для них словами.

Таблицу нужно загрузить в следующем формате (рис. 9).

тип Wordstat + Ручные маркеры

Рисунок №9 — Тип Wordstat + Ручные маркеры

Вот именно этот вид мы протестим в рамках этой статьи. У меня сейчас как раз есть сайт, для которого уже сформирована вся структура, и я хочу определить, по каким ключам продвигать страницы и заодно посмотреть, есть ли потенциал для расширения сайта. 

Точность соответствия

Тут уже все предельно легко. Данная настройка определяет минимально необходимое число соответствий по URL, чтобы сказать, подобен запрос или нет. В зависимости от тематики вашего бизнеса, может понадобится разное количество урлов для определения на подобен/неподобен. У команды rush-analytics есть рекомендации относительно того, в каких ситуациях ставить ту или иную точность. Например, для интернет-магазина рекомендуется 5-6. Это позволит избежать того, что, например, карточки товара типа samsung psycho и samsung psycho 2, могут оказаться в одном кластере и т.д.

Для блога, ну и, в общем, информационника, допустима минимальная величина 3. Так как, пусть даже и немного размытые ключи, вполне сгодятся для написания статей. Для самых конкурентных тематик, где основная цель — это высокочастотники в топе, рекомендуется ставить минимальное значение 6-7.

И конечно же, обязательно попробуйте варьировать эти значения и оцените плотность, и качество семантики для вашей ниши. Возможно, в вашем случае другие величины дают превосходные результаты.

Небольшое резюме (рис. 10).

краткое описание настроек кластеризатора

Рисунок №10 — Краткое описание настроек кластеризатора

Дополнительные настройки

Возможно, вы уже обратили внимание на чек бокс “Не кластеризовать, если частотность меньше, чем”. Так вот, если его активировать, появится возможность указать минимальный порог частоты, после которой запрос уже нет смысла кластеризовать. Все подобные запросы попадут на вкладку “Не кластеризовано”. И последняя по списку функция, добавление в таблицу релевантных урлов на сайте, для которого делается ядро. Другими словами, либо из Топа, либо через оператор site: будет определена релевантная страница конкретному маркерному запросу. Для этого необходимо всего лишь добавить ссылку на сайт (рис. 11).

подбор релевантных страниц

Рисунок №11 — Подбор релевантных страниц

Практическое применение

Я решил провести кластеризацию методом Soft и типом ручные маркеры + Wordstat.

Так как в данный момент работаю с сайтом, у которого уже есть структура, мне нужно будет просто определить слова для продвижения существующих категорий и посмотреть, есть ли потенциал для создания новых. Итак, выставив настройки, я нажимаю “следующий шаг”.  На этом этапе мне нужно загрузить файл в указанном формате.

Для получения такого файла я выполню 3 основных действия.

  • Составлю список запросов, которые являются центральным обозначением каждой отдельной категории на сайте. Результат тут.
  • Выполню парсинг на основе стартовых ключей для сбора всех имеющихся вариантов запросов. Результат тут. (почитать о способе собрать ключи через Wordstat)
  • Очищу собранные ключи от мусорных запросов. Т.е., удалю все запросы, которые явно не актуальные для продвигаемого сайта. И экспортирую файл в excel. Результат тут.

Финальный список маркеров + ключи из вордстата загружу в  кластеризатор (рис. 12).

загрузка финального файла

Рисунок №12 — Загрузка финального файла

И нажимаю “добавить ключевые слова”. Система просчитает вам стоимость. Она отображается в нижней панеле, напротив кнопки “создать проект”. В моем случае   это 929.25 лимитов (рис. 13).

стоимость проекта

Рисунок №13 — Стоимость проекта

Нажимаем “создать проект”. И далее, во всплывшем окне, нажимаем “запустить” (рис. 14).

запуск проекта

Рисунок №14 — Запуск проекта

Ожидаем…

ожидание

На самом деле, процесс прошел совсем быстро, заняло это менее 5 минут. Скачиваем результат (рис. 15).

скачивание файла

Рисунок №15 — Скачивание файла

Вот, собственно говоря, и все! Ну разве что давайте глянем на файл с результатом тут. Описание всех столбцов будет иметь примерно такой вид:

  • Запросы, закрашенные серым цветом – центральные ключи (маркеры), определенные вами вручную или алгоритмом.
  • Имя кластера – используется имя маркерного запроса.
  • Размер кластера – суммарное количество ключевых фраз в кластере.
  • Частотность ключевых слов – частотность, установленная вами в шаге «Ключевые слова».
  • Общая/суммарная частотность группы/кластера – просуммированный результат всех ключей кластера.
  • Совпадений ТОПа – сумма общих урлов в выдаче ПС по данному запросу с выдачей по центральному (маркерному) ключу.
  • Подсветки – подсветки из результатов выдачи ПС, собранные по вашему ключу.
  • Подсветки — тут собраны подсветки без дублей, по каждому ключу кластера.
  • Top URL — урл конкурента с самой высокой видимостью в выдаче, по всем имеющимся запросам в кластере. Релевантный URL — так как я указал адрес сайта, для которого провожу кластеризацию, мне были найдены релевантные URL для каждого кластера.

На этом, собственно, все. Файл с готовыми кластерами и ключами у вас на руках, и вы можете приступать к распределению ключей или анализу созданных потенциальных кластеров. Во вкладке «Кластеризовано» по Wordstat. И как всегда to be continued….

Автор Виталий Сухомлинов
практикующий Seo-специалист
и программист любитель

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *