Собрать пайплайн операций над аудиофайлом с интерфейсом управления через Telegram-бота
Здравствуйте!
Нам необходимо создать и в дальнейшем развивать пайплайн (последовательность) операций над аудиофайлом (отправка в ML-модели по API и обработка текстов) с интерфейсом управления через Telegram-бота.
Кратко суть: пользователь загружает аудиофайл в Telegram-бот, аудиофайл отправляется по API в различные ML-модели. На выходе из моделей — текстовые файлы в разных форматах разметки (VTT, JSON и др.). Эти файлы переформатируются и собираются в финальные версии, которые отправляются пользователю в Telegram-бот.
В дальнейшем потребуется поддержка по добавлению/изменению используемых моделей и алгоритмов обработки текстов, интеграция по API с другими интерфейсами. Бэк на Python.
Этапы обработки в MVP:
1. Отправка по API в модель диаризации (разметки по спикерам)
2. Сегментация файла на фрагменты
3. Отправка по API фрагментов в модель распознавание речи
4. Получение финального текста из результатов этапов 1 и 3
Детальное ТЗ уже готово.
При ответе просьба вкратце описать опыт сборки релевантных проектов и сразу задать необходимые уточняющие вопросы по проекту.
Спасибо!
Сергей