-Поиск по дневнику

Поиск сообщений в rss_habrahabr_of_lokoman

 -Подписка по e-mail

 

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 16.03.2008
Записей:
Комментариев:
Написано: 2


У нас есть ASR дома. Распознавание речи, субтитры и изучение языков при помощи Whisper

Понедельник, 10 Октября 2022 г. 13:02 + в цитатник

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится прикрутить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" -> "Где мои 17 лет?"). Это задачи решаемые, дающие результат, но требующие времени.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Я попробовал её large вариант на нескольких языках, результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16-ти, ~10 000 часов — у 5-ти языков, включая русский.

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Читать далее

https://habr.com/ru/post/692246/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692246

Метки:  

 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку