У нас есть ASR дома. Распознавание речи, субтитры и изучение языков при помощи Whisper

Понедельник, 10 Октября 2022 г. 13:02 + в цитатник

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится прикрутить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" -> "Где мои 17 лет?"). Это задачи решаемые, дающие результат, но требующие времени.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Я попробовал её large вариант на нескольких языках, результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16-ти, ~10 000 часов — у 5-ти языков, включая русский.

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

https://habr.com/ru/post/692246/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692246

<a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post495626452/">РЈ РЅР°СЃ РµСЃС‚СЊ ASR РґРѕРјР°. Р Р°СЃРїРѕР·РЅР°РІР°РЅРёРµ СЂРµС‡Рё, СЃСѓР±С‚РёС‚СЂС‹ Рё РёР·СѓС‡РµРЅРёРµ СЏР·С‹РєРѕРІ РїСЂРё РїРѕРјРѕС‰Рё Whisper</a><br/>Р•СЃС‚СЊ СЂСЏРґ РїР»Р°С‚РЅС‹С… СЂРµС€РµРЅРёР№ РїРѕ РїРµСЂРµРІРѕРґСѓ СЂРµС‡Рё РІ С‚РµРєСЃС‚ (Automatic Speech Recognition). РЎСЂР°РІРЅРёС‚РµР»СЊРЅРѕ РјР°Р»С‹РјРё СѓСЃРёР»РёСЏРјРё РјРѕР¶РЅРѕ СЃРґРµР»Р°С‚СЊ Р±РµСЃРїР»Р°С‚РЅРѕРµ СЂРµС€РµРЅРёРµ, вЂ” РґРѕРѕР±СѓС‡РёС‚СЊ РЅР° СЃРІРѕРёС… РґР°РЅРЅС‹С… end2end РјРѕРґРµР»СЊ (РЅР°РїСЂРёРјРµСЂ, РІР·СЏС‚СЊ С„СЂРµР№РјРІРѕСЂРє NeMo РѕС‚ NVIDIA) РёР»Рё РіРёР±СЂРёРґРЅСѓСЋ РјРѕРґРµР»СЊ С‚РёРїР° kaldi. РЎРІРµСЂС…Сѓ РїРѕРЅР°РґРѕР±РёС‚СЃСЏ РїСЂРёРєСЂСѓС‚РёС‚СЊ СЂР°СЃСЃС‚Р°РЅРѕРІРєСѓ РїСѓРЅРєС‚СѓР°С†РёРё Рё РґРµРЅРѕСЂРјР°Р»РёР·Р°С†РёСЋ РґР»СЏ СѓР»СѓС‡С€РµРЅРёСЏ С‡РёС‚Р°РµРјРѕСЃС‚Рё ("РіРґРµ РјРѕРё СЃРµРјРЅР°РґС†Р°С‚СЊ Р»РµС‚" -> "Р“РґРµ РјРѕРё 17 Р»РµС‚?"). РС‚Рѕ Р·Р°РґР°С‡Рё СЂРµС€Р°РµРјС‹Рµ, РґР°СЋС‰РёРµ СЂРµР·СѓР»СЊС‚Р°С‚, РЅРѕ С‚СЂРµР±СѓСЋС‰РёРµ РІСЂРµРјРµРЅРё.РќРµРґР°РІРЅРѕ РІ РѕС‚РєСЂС‹С‚С‹Р№ РґРѕСЃС‚СѓРї Р±С‹Р»Р° РІС‹Р»РѕР¶РµРЅР° РјСѓР»СЊС‚РёСЏР·С‹С‡РЅР°СЏ РјРѕРґРµР»СЊ whisper РѕС‚ OpenAI. РЇ РїРѕРїСЂРѕР±РѕРІР°Р» РµС‘ large РІР°СЂРёР°РЅС‚ РЅР° РЅРµСЃРєРѕР»СЊРєРёС… СЏР·С‹РєР°С…, ... <a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post495626452/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Статистика

У нас есть ASR дома. Распознавание речи, субтитры и изучение языков при помощи Whisper