Скрипт кластеризации ключей
Нужен скрипт кластеризации ключей на основе результатов поисковой выдачи (уже подается на вход в файле).
На вход подается CSV файл с:
запрос1;ссылка1
запрос1;ссылка2
...
запрос1;ссылка10
запрос2;ссылка1
...
запрос2;ссылка10
...
запросN;ссылкаN
Если у ключей есть общие N ссылок (задается в настройках), то ключи объединяются в одну группу.
В качестве названия кластера указывается ключ с наибольшим количеством слов.
Остальные ключи кластера сохраняются в txt файл с названием хэша кластера.
И сохраняется общий файл out.txt в формате
название кластера|хэш кластера