У нас есть ASR дома. Распознавание речи, субтитры и изучение языков при помощи Whisper |
Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится прикрутить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" -> "Где мои 17 лет?"). Это задачи решаемые, дающие результат, но требующие времени.
Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Я попробовал её large вариант на нескольких языках, результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16-ти, ~10 000 часов — у 5-ти языков, включая русский.
Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.
Читать далееhttps://habr.com/ru/post/692246/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692246
Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |