Машинное обучение: кластеризация текстов python
На
входе есть коллекция текстов - описания стартапов. На выходе
технологические тренды на базе этой коллекции текстов. Например: "AI в
маркетинге для оптимизации рекламы".
Как вижу пайплайн: 1. Взять тексты и применить модель кластеризации. Выделить N кластеров. Для каждого кластера записать его мощность - число точек внутри него. 2. Кластер будет соотстветствовать тренду. Необходимо дать "название" тренду. Для этого предлагается извлечь три описания стартапов, которые максимального близки к центроиду. Далее аналитик на них смотрит и дает название тренду. 3. На выходе таблица: номер кластера, мощность кластера, три описания стартапов внутри кластера. Скрипт должен быть написан на Python и выложен в Google Colab с комментариями. Следующей итерацией (если с этим заданием ок) предполагается обобщение описаний стартапов внутри кластера до трендов при помощи GPT. В этом проекте требуется компетенция в машинном обучении и NLP. |