Система автоматического тегирования контента

27.12.2022 19:20

На сайте опубликованы статьи, разбитые по разделам. Пользователи оставляют комментарии под статьями. Необходимо выделить ключевые слова из комментариев. Протегировать разделы, статьи и комментарии по этим словам, посчитать частоту слова относительно контекста (раздел, статья).

Нам кажется наиболее логичным использовать для этой задачи поисковые движки, где все эти алгоритмы родные. Например Elastic или Solr. Рассмотрим и другие подходы.

При обработке текста необходимо:

удалять служебные слова
приводить слова к основной форме
иметь возможность добавить стоп слова, не участвующие в индексировании
основная форма слова будет базой для индексирования
опционально выделять главное смысловое слово из единичного комментария

На входе имеем БД MySQL с доступ на чтение к нескольким таблицам. Связи между таблицами по ID parent/child.

CATEGORY(ID) ARTICLE(ID) COMMENT(ID) USER(ID)

Реализация должна предоставлять http-api для запросов вида:

получить все тэги для раздела
получить все тэги для статьи
получить топ N тэгов по разделу
получить топ N тэгов по статье
получить статьи с тэгом
получить комментарии с тэгом
для каждого ответа наряду с тэгом должна присутствовать его частота в данном контексте

Требования к системе:

автоматический реиндекс, допускается задержка в несколько минут
на первом этапе поддерживать русскую и английскую морфологию
поддерживать расширение на другие языки с помощью конфигурации
опционально автоматическое определение языка на уровне комментария, добавление его в индекс

Нефункциональные требования: