Разработка модели выявления утверждений(NLP)
2) отложить и разметить вручную («содержит/не содержит») тестовую выборку
3) остальные неразмеченные данные причесать перед подачей в модель-векторизатор(убрать ненужные колонки которые не надо подавать в модель)
4) получить векторы-эмбеддинги от модели векторизатора (здесь может быть Берт, но не как классификатор, а как эмбеддинговая модель!)
5) кластеризация этих векторов
6) TF-IDF между кластерами для поиска кластера, содержащего утверждения оценки стоимости мировых рынков
7) сохранение самых характерных n-грамов из этого кластера в список
остальные кластеры принимаем за единый класс «не содержит»
9) rule_based-функционал:
а. взять отложенную выборку
б. каждый текст из выборки проверить на наличие n-грамов из списка
в. если содержит – относим текст в категорию «содержит утверждения оценки стоимости мировых рынков»
г. считаем метрику по true-разметке
Итоговым проектом будет служить файл с разметкой, файл с векторизацией и файл с моделью которая выдает результат по исходным данным.