синтез речи - Самое интересное в блогах

rss_habr

Антикризисная workstation для ML с тестами на реальной задаче Text to Speech

Воскресенье, 09 Октября 2022 г. 09:09 (ссылка)

Как сказал бы ныне великий классик собственная рабочая станция для ML это не роскошь, а средство для обучения. Да и к тому же арендованный сервер это не всегда, удобно быстро и безопасно.

https://habr.com/ru/post/692234/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692234

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Автоматический синтез речи: взгляд лингвиста

Пятница, 29 Июля 2022 г. 13:30 (ссылка)

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи. Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания.

https://habr.com/ru/post/679838/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679838

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Может ли синтез речи обмануть систему биометрической идентификации?

Среда, 29 Июня 2022 г. 11:38 (ссылка)

Под одной из наших недавних статей на Хабре я упомянул исследование, подробно рассматривающее вопрос "обмана" коммерческих систем биометрической идентификации с помощью открытых инструментов по клонированию голоса. Завязалась дискуссия на тему "стоит ли бояться, что ваш голос украдут".

Естественно, исследование четкого однозначного ответа не дает, но скорее говорит, что на пути злоумышленников в первую очередь встает несовершенство систем клонирования голоса, количество и качество записей полученных мошенниками, акценты и прочие несовершенства мира. Проценты "обмана" при наличии ряда таких затруднений там не впечатляющие.

Так уж получилось, что один из наших заказчиков, заказывал у нас голос для синтеза … как раз с целью сделать пен-тест коммерческой системы биометрической идентификации. Не могу назвать (и даже не знаю) вендора этой системы, но заказчик это довольно крупная и известная фирма (они попросили не упоминать какие-либо названия).

Короткий ответ на вопрос из заголовка - да, причем весьма успешно. Длинный ответ - скорее всего вам этого бояться не следует. Постараюсь объяснить почему. Поехали.

И почему?

https://habr.com/ru/post/673996/?utm_source=habrahabr&utm_medium=rss&utm_campaign=673996

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Теперь наш синтез на 20 языках

Понедельник, 06 Июня 2022 г. 20:35 (ссылка)

hero_image

В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.

В этот раз мы добавили:

1 высококачественный голос на русском языке (eugeny);

Синтез на 20 языках, 174 голоса;

В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;

В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;

Также в список языков входят 10 языков народов Индии;

Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);

Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

https://habr.com/ru/post/669910/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669910

Метки: Машинное обучение DIY или Сделай сам Звук Natural Language Processing Голосовые интерфейсы tts text-to-speech синтез речи

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как мы подходим к поддержке ML-моделей в синтезе речи

Пятница, 03 Июня 2022 г. 14:27 (ссылка)

Всем привет! Меня зовут Александра Сорока, я занимаюсь синтезом речи в Тинькофф. А это — мой текст о том, зачем вообще думать о долгосрочной поддержке кода и ML-моделей. Я расскажу, почему мы отказались от опенсорсных решений, как работаем с датасетами и разными версиями моделей и как замеряем их качество. Статья может оказаться полезной для всех, кто хочет знать, как ничего не поломать.

https://habr.com/ru/post/669480/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669480

Метки: Блог компании TINKOFF Машинное обучение синтез речи речевые технологии speech synthesis text-to-speech machine learning

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

«А поговорить?» или делаем звонок для подтверждения заказа в интернет магазине с помощью МТТ VoiceBox

Пятница, 13 Мая 2022 г. 15:03 (ссылка)

Экономическая ситуация нынче нестабильная, лишних денег у людей нет. И вот значится обратились ко мне товарищи со словами: "Ты же когда-то там сайты делал, помоги разобраться". После такой просьбы пришлось мне сдувать пыль вековую с постаревших связей нейронных, да бубен шаманский доставать.

Но не переживайте, эта статья не о том, как я спустя 12 лет снова сел ковырять сайты на PHP. Всё это банально и писать об этом на Хабр я бы не стал.

А вот, что мне действительно было интересно, так это поковыряться в настройках голосового бота. Никогда раньше с таким не сталкивался и настолько меня это увлекло, что по горячим следам начал писать статью.

Вы готовы загибать пальцы?

Итак, сегодня мы с вами:

- Настроим сценарий голосового бота для подтверждения интернет заказа.

- Одним глазом взглянем на API для управления ботом и отправим пару запросов через Postman.

- Добавим пару кастомных действий в WooCommerce, чтобы робот вместо оператора разными голосами подтверждал заказ.

https://habr.com/ru/post/592025/?utm_source=habrahabr&utm_medium=rss&utm_campaign=592025

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Вторник, 12 Апреля 2022 г. 20:58 (ссылка)

hero_image

В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

Снизили размер модели в 2 раза;

Научили наши модели делать паузы;

Добавили один высококачественный голос (и бесконечное число случайных);

Ускорили наши модели где-то примерно в 10 раз (!);

Упаковали всех спикеров одного языка в одну модель;

Наши модели теперь могут принимать на вход даже целые абзацы текста;

Добавили функции контроля скорости и высоты речи через SSML;

Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;

Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

https://habr.com/ru/post/660565/?utm_source=habrahabr&utm_medium=rss&utm_campaign=660565