NLP
Построить классификаторы для оценки тональности текстов. Модели обучать на наборе данных из корпуса RuTweetCorp (http://study.mokoron.com/), необходимые файлы также есть на Яндекс диске в папке «Машинное обучение».
Для решения задачи необходимо сформировать 2 набора признаков:
- Признаки по результатам графематического и морфологического анализа текстов: количество предложений, количество токенов, количество определенных знаков препинания и смайликов, доля различных частей речи (имен прилагательных, существительных, глаголов, междометий и т.д.)
- На основе модели «мешок слов» с мерой TF-IDF.
- Классический метод машинного обучения (метод опорных векторов, логистическую регрессию, дерево решений, случайный лес и т.д.)
- Сверточную нейронную сеть.
- Рекуррентную нейронную сеть.