Мы в Telegram
Добавить новость
103news.com
Работа
Декабрь
2022

Система автоматического тегирования контента

0
На сайте опубликованы статьи, разбитые по разделам. Пользователи оставляют комментарии под статьями. Необходимо выделить ключевые слова из комментариев. Протегировать разделы, статьи и комментарии по этим словам, посчитать частоту слова относительно контекста (раздел, статья).


Нам кажется наиболее логичным использовать для этой задачи поисковые движки, где все эти алгоритмы родные. Например Elastic или Solr. Рассмотрим и другие подходы.


При обработке текста необходимо:

  • удалять служебные слова
  • приводить слова к основной форме
  • иметь возможность добавить стоп слова, не участвующие в индексировании
  • основная форма слова будет базой для индексирования
  • опционально выделять главное смысловое слово из единичного комментария

На входе имеем БД MySQL с доступ на чтение к нескольким таблицам. Связи между таблицами по ID parent/child.


CATEGORY(ID) ARTICLE(ID) COMMENT(ID) USER(ID)


Реализация должна предоставлять http-api для запросов вида:

  • получить все тэги для раздела
  • получить все тэги для статьи
  • получить топ N тэгов по разделу
  • получить топ N тэгов по статье
  • получить статьи с тэгом
  • получить комментарии с тэгом
  • для каждого ответа наряду с тэгом должна присутствовать его частота в данном контексте

Требования к системе:

  • автоматический реиндекс, допускается задержка в несколько минут
  • на первом этапе поддерживать русскую и английскую морфологию
  • поддерживать расширение на другие языки с помощью конфигурации
  • опционально автоматическое определение языка на уровне комментария, добавление его в индекс

Нефункциональные требования:

  • использовать только открытые инструменты
  • по возможности избежать написание кода, использовать конфигурации готовых инструментов





Губернаторы России
Москва

Собянин сообщил о планах благоустройства на северо-востоке Москвы





Москва

Страдания юного Аюша Булчун


Губернаторы России

103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.

Moscow.media
Москва

Сергей Собянин: в ТиНАО создадут новые управы районов



103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. 103news.com — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Игорь Бутман

Игорь Бутман заявил, что Пугачева ему безразлична, и назвал ее ЖКП




Спорт в России и мире

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

В ЦСКА рассказали о тяжести травмы голкипера Владислава Торопа

Семьи из Подмосковья поборются за выход в финал конкурса «Это у нас семейное»

Брянские парапланеристы завоевали три медали на чемпионате ЦФО


WTA

Виктория Азаренко пробилась в четвертьфинал турнира WTA в Риме



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России