Почему я отказался от облачных ASR и собрал инструмент для распознавания речи сам
Распознавание речи решает многие проблемы. Например, улучшает обслуживание клиентов за счёт автоматизированного анализа работы службы поддержки, ускоряет приём пациентов за счет заполнения документов голосом, решает проблемы управления и контроля. В целом распознавание речи облегчает общение между человеком и компьютером.
Если вам нужно распознавать речь, записанную в звуковых файлах или поступающую в реальном времени с микрофона или радиоприёмника, для этого есть готовые коммерческие сервисы. Однако им можно доверить не всё, например, по соображениям конфиденциальности, из-за отсутствия нужных вам возможностей или по другим причинам, о которых я напишу ниже.
Из этой статьи вы узнаете, как самостоятельно сделать автоматические системы распознавания речи ASR (Automatic Speech Recognition) с применением современных нейросетей и программ на Python. Эти системы смогут выделять спикеров при обработке звуковых файлов, а также распознавать речь в потоке, поступающую, например, от микрофона или радиоприёмника.
Читать далее