-Рубрики

 -Поиск по дневнику

Поиск сообщений в Лакшери-роботы

 -Подписка по e-mail

 

 -Интересы

https://vk.com/alex_barsukov88

 -Сообщества

Участник сообществ (Всего в списке: 1) Рекламка_дневничков

 -Статистика

Статистика LiveInternet.ru: показано количество хитов и посетителей
Создан: 25.01.2016
Записей:
Комментариев:
Написано: 2341


Тема электронного слуха на VI Международной конференции «Цифровая обработка сигналов и её применение» (по материалам РНТОРЭС им. А. С. Попова)

Четверг, 06 Октября 2016 г. 09:34 + в цитатник
▪ Структурно-параметрический синтез нейронных сетей в системах биометрической идентификации личности (БИЛ) по голосу (Южно-Уральский государственный университет). В системах БИЛ по особенностям голоса важным является выбор методов обработки информации, в частности, выбор метода преобразования волновой структуры речевого сигнала в необходимый тип параметрического представления. Известно несколько методов параметрического представления речевого сигнала один из которых – MFCC (Mel-Frequency Cepstrum Coefficients). В работе исследованы два метода преобразования речи:
- на основе скрытых марковских моделей;
- с использованием нейросетевых технологий.
Первый позволяет эффективно моделировать статистические изменения спектральных характеристик, что обеспечивает достижение в системах БИЛ высокой точности распознавания. Нейронные же сети в системах БИЛ по голосу используются для обработки разнообразной информации. Поскольку нейроны – это, в общем случае, нелинейные элементы. Следовательно, нейронные сети являются нелинейными системами, пригодными для решения задач нелинейной идентификации, принципиально связанных с наличием нелинейных характеристик. При этом основным достоинством обученной искусственной нейронной сети является обобщение, что позволяет обеспечивать возможность восстановления пропущенных данных и прогнозировать их характеристики. В биометрической идентификации речевой сигнал представляется вектором в определённом параметрическом пространстве, который заносится по заданному алгоритму в нейросеть. Ответственной задачей является выбор алгоритма, позволяющего производить в нейросети параллельную обработку информации, что, в конечном итоге, позволит решить вопрос о скорости распознавания. На основе нейронных сетей организуется иерархическая многоуровневая система распознавания речи с возможностью раздельного анализа.
В системе БИЛ по голосу с использованием нейронных сетей важным достоинством является автоматическая настройка уровня качества идентификации конкретной личности и возможность прогнозирования этого уровня. Однако, при этом необходимо также осуществлять автоматический синтез самих нейронных сетей (количество нейронов, виды активационных функций и весовые коэффициенты), который эффективно можно осуществить с помощью методов структурно-параметрической технологии проектирования искусственных систем различного назначения. Эти методы позволяют обеспечить направленный выбор оптимального варианта конфигурации и параметров нейронной сети. 
▪ Детектор речи на основе фильтрации спектра модуляции речевого сигнала (Белорусский государственный университет информатики и радиоэлектроники). В большинстве случаев речевой сигнал, поступающий на вход детектора речи (VAD – voice activity detector), должен быть высокого качества. Однако, системы мультимедиа часто используются в изменяющейся акустической обстановке, что может приводить к изменению характеристик работы VAD алгоритма. Предлагается детектор речи на основе свойств модуляционного спектра речевого сигнала, позволяющий эффективно распознавать наличие речи при неблагоприятных акустических условиях.
Для детектирования речи использован биологически мотивированный метод со схемой, схожей со строением человеческого уха с использованием свойств речи в модуляционной области. Функционирование ушной улитки может быть описано на электрическом уровне как работа банка фильтров с высокой степенью перекрытия полос. Свойства речи в модуляционной области могут быть продемонстрированы на примере коэффициента модуляции MI (modulation index) – меры распределения энергии в области частот модуляции. Другими словами, это нормализованная энергия преобладающих частот модуляции речи в данной полосе частот. Как показано разными исследователями, коэффициент модуляции шума отличается от коэффициента модуляции чистой речи. Основная часть энергии (более 95%) речевого сигнала сконцентрирована в диапазоне от 1 до 16 Гц с пиком около 3-5 Гц. Это соответствует количеству слогов, произносимых человеком за секунду. Таким образом, модуляционные компоненты, изменяющиеся с частотами, не входящими в данный диапазон, могут быть удалены с помощью фильтрации спектра модуляции.
О схеме метода детектирования речи на основе фильтрации модуляционного спектра речевого сигнала. Исходный речевой сигнал разбивается на М частотных полос банком ДПФ модулированных полифазных фильтров. В каждой частотной полосе вычисляется огибающая сигнала, которые затем суммируются. Операция суммирования обусловлена уменьшением вычислительной сложности VAD алгоритма. Суммарная огибающая амплитуды сигнала фильтруется пoлосовым модуляционным фильтром (БИХ-фильтр) 1-16 Гц. Процедура фильтрации позволяет уменьшить энергию шумов, выделив тем самым речевые компоненты.
После этого производится вычисление энергии отфильтрованной огибающей. Принятие решения «речь/шум» происходит на основании сравнения классификационного параметра и вычисляемого на основе статистики порога. Среднее значение и стандартное отклонение рассчитываются с помощью экспоненциального усреднения в паузах между речью. В качестве классификационного параметра используется энергия Е отфильтрованной огибающей.
Для проведения эксперимента применялись 6 речевых сигналов, частота дискретизации 8 кГц. Для каждого эталонного сигнала было получено по четыре зашумлённых сигнала с параметром SNR 10, 5, 0 и –5 Дб. в качестве шумового сигнала были использованы белый и «цветные» шумы. Характеристика работы детектора оценивалась по следующим объективным параметрам: Р(А) – вероятность правильного детектирования речи, Р(В) – вероятность корректности решения «речь/пауза».
Для сравнения с предложенным детектором были использованы следующие детекторы речи: основанный на оценке энергии сигнала, спектральный, стандартный капстральный, дифференциальный капстральный. В качестве эталонного решения «речь/пауза» использовались результаты, полученные тестируемым методом на чистом речевом сигнале. В итоге, для предложенного детектора вероятность правильного определения «речь/пауза» в зашумлённом сигнале оказалась выше по сравнению с другими методами. То есть, предложенный метод имеет меньшую, по сравнению с другими, ошибку детектирования речи при неблагоприятных акустических условиях. А. Барсуков, журнал "ТКТ", № 9, 2004 г.
 
Тема электронной речи и электронного слуха на VI конференции «Цифровая обработка сигналов и её применение» (по материалам РНТОРЭС им. А. С. Попова)
Использование принципов работы периферических отделов слуховой системы для построения анализатора с высоким частотно-временным разрешением (доклад Института проблем управления РАН). При необходимости осуществления оценки состояния объектов, излучающих нестационарные сигналы, возникает задача анализа этих сигналов с высокой разрешающей способностью как в частотной, так и во временной областях. Для достижения высокого частотно-временного разрешения применяют методы, основанные на кратковременном преобразовании Фурье, а также методы, основанные на вейвлет-анализе. Поскольку при распознавании речевых сигналов слуховой анализатор успешно решает задачу частотно-временного анализа, представляет интерес использовать принципы его организации при построении технических систем. Как известно, основной особенностью слухового анализатора является большее, чем на порядок различие разрешающих способностей по частоте при одновременном и последовательном предъявлении частотных посылок, характеризуемых, соответственно, критической полосой и дифференциальным порогом.
В работе выдвинуто предположение, что необходимое соотношение между критической полосой и дифференциальным порогом может быть реализовано за счет использования гребёнки низкодобротных (широкополосных) сильно перекрывающихся полосовых фильтров и последующей обработки распределения отклика этих фильтров с помощью нейронной сети с латеральными тормозными связями. Задача нейронной сети состоит в подчеркивании (обострении) максимумов распределения фронта откликов фильтров путём нахождения разности возбуждающего и тормозного фронтов, возникающих на выходе нейронной сети.
Работоспособность модели была проверена на аппаратно-программном комплексе, реализованном в виде гребёнки из 100 полосовых фильтров с добротностью, равной 5-7 и резонансными частотами, расположенными по шкале Барков в диапазоне 300-3000Г. После детектирования и сглаживания распределение откликов фильтров обрабатывалось нейронной сетью, реализованной программно на ЭВМ. А. Барсуков, журнал "ТКТ", № 7, 2004 г. 
 
Распознавание речи в системах массового обслуживания реализовано Лабораторией автоматизированных систем массового обслуживания Института проблем управления им. В. А. Трапезникова РАН. Разработаны голосовые интерфейсы к различным информационным и сервисным системам: «Сирена», диспетчерская такси, созданы пакеты распознавания речи к службам системы Web Money.
Например, для получения справок о рейсах клиент, в режиме диалога с компьютером, отвечая на его наводящие вопросы, называет город назначения, месяц и число вылета и получает ответ. Похожий диалог происходит во время заказа такси, причем в обоих случаях компьютер подстраховывается и переспрашивает клиента о том, правильно ли поняты системой параметры заказа.
Несколько сложнее выглядит диалог, целью которого служит пополнение счета мобильного оператора. Компьютер спрашивает, чего именно хочет клиент: провести операции, получить информацию о балансе, сменить пин-код или изменить уровень безопасности. Если клиент хочет провести операцию, то компьютер перечисляет виды операций, чтобы клиент в ответ назвал одну из них. Например, оплата мобильного телефона. Компьютер предлагает выбрать одного из операторов мобильной связи. Затем -–тип кошелька: Z (доллары) или R (рубли). Затем – назвать целое значение суммы в рублях, которую клиент хочет перевести на лицевой счет. Получив этот, последний ответ компьютер просит подождать, сказав, что запрос обрабатывается, после чего извещает, что оплата успешно завершена и что лицевой счет будет пополнен в течение часа. А. Барсуков, журнал "ТКТ" № 7, 2004 г. 
 
Электронный сканирующий переводчик Quicktionary TS 
28 сентября 2011 г. – Компания «Электронные словари», официальный дистрибьютор WIZCOM Technologies Ltd. в России, представляет обновленную версию портативного электронного сканирующего переводчика Wizcom Quicktionary TS, способного распознавать как отдельные слова, так и целые строки, включая идиомы и фразы, и делать их моментальный перевод. При переводе текста более 50% времени уходит на поиск нужного слова в словаре. Теперь не надо листать страницы – достаточно провести ручным сканером по искомому слову или фразе и посмотреть перевод на экране. Это портативное и легкое устройство способно заменить собой целую библиотеку специализированных словарей!
Портативный сканирующий переводчик Quicktionary TS – это не только сканер-словарь, но и целый набор новых уникальных технологий по работе с текстами на иностранных языках.  Использование сенсорного экрана и виртуальной клавиатуры обеспечивает максимальную эффективность при невозможности отсканировать текст – теперь вам «по зубам» любая вывеска, титры, просто слово, услышанное или пришедшее на ум. Для удобства набора слов с помощью виртуальной клавиатуры в Quicktionary TS предусмотрен компактный и удобный стилус, надежно крепящийся в слоте внутри корпуса устройства.   Сканирующий переводчик Quicktionary TS различает широкий диапазон размеров и вариантов написания шрифтов, включая курсивы и подчеркивания. Не станет сложностью и слово, разделенное дефисом или знаком переноса - в этом случае переводчик догадается «склеить» разрозненные части слова в одно и перевести результат.  
При работе возможны два режима отображения переведенного текста на экране – краткое определение или полное определение и перевод. Устройство не ограничивается одним наиболее простым и часто встречающимся определением и старается учесть все возможные варианты значения слова и его грамматических форм.
Изначально электронный сканирующий переводчик Quicktionary TS включает в себя 3 словаря:

quickt (400x368, 77Kb)• Англо-русский словарь на 300 000 слов и 20 000 устойчивых выражений (перевод содержит английский, американский и австралийский варианты значения слова);
• Русско-английский словарь ABBYY Lingvo на 110 000 слов и словосочетаний от всемирно известного российского разработчика программного обеспечения и поставщика услуг в области распознавания и ввода документов, лингвистики и перевода - компании ABBYY;
• Толковый словарь American Heritage Concise на 300 000 слов.
Переводчик запоминает последние 80 переведенных пользователем слов, которые потом использует во встроенных играх, предназначенных для закрепления материала. Одна из игр, Wordman, чем-то напоминает наше «Поле чудес» - пользователю предстоит угадать скрытое слово, нажимая буквы на виртуальной клавиатуре. Другая игра, Scrambled Word, еще и развивает логическое мышление – в ней нужно расшифровать слово, имея в начале игры только набор входящих в него букв.
Электронный сканирующий переводчик Quicktionary TS позволяет прослушать голосовое произношение как отдельных переведенных слов, так и целых строк текста на выбранных языках. Звук можно воспроизвести как через встроенный динамик, так и через наушники, подключенные к стандартному 3,5-миллиметровому разъему mini-jack.
Все управление Quicktionary TS организовано посредством пятипозиционной навигационной кнопки и сенсорного экрана, на котором помещается до пяти строк текста и меню в виде пиктограмм. Ориентация текста и назначение кнопок переключаются с помощью всего одного пункта меню и организовано как для правшей, так и для тех, кто пользуется преимущественно левой рукой.
В комплектацию, помимо самого электронного сканирующего переводчика, входит защитный футляр, наушники, пластиковый тренажер, 2 батарейки ААА и подробнейшая инструкция по использованию на русском языке.
Портативный сканирующий переводчик Quicktionary TS уже доступен в магазинах-партнерах компании «Электронные словари». Рекомендованная розничная стоимость устройства составляет 6 590 рублей.
Характеристики электронного сканирующего переводчика Quicktionary TS:
Тип устройства: Электронный сканирующий переводчик
Экран: 2,5” (208 х 65 пикселей / 5 строк по 22 символа в строке), монохромный FSTN, сенсорный
Управление: Комбинированное (сенсорный экран + кнопки)
Процессор: ARM7 TDMI, 80 МГц
Встроенная память: 4 / 8 / 16 Мб
Оперативная память: 64 Кб (для системных нужд)
Динамик: Моно (1х 1 Вт)
Способ ввода: Сканирование печатного текста, ручной ввод при помощи виртуальной клавиатуры на сенсорном экране
Разрешение сканера: 400 dpi
Размер сканируемых букв: 6-22 pt
Начертание сканируемых букв: Обычные шрифты, курсив, жирные и подчеркнутые буквы
Дополнительные возможности сканирования: Сканирование негативного текста, изменение направления сканирования для левшей, сканирование полной строки, редактирование отсканированного слова, память на 80 ранее отсканированных слов
Поддерживаемые языки: Английский, русский
Словарная база: Более 700 000 слов
Словари: - Англо-русский словарь на 300 000 слов и 20 000 устойчивых выражений
- Русско-английский словарь ABBYY Lingvo на 110 000 слов и словосочетаний
- Толковый словарь American Heritage Concise на 300 000 слов
Дополнительно: Функция произношения, регулировка контрастности экрана
Питание: 2 батарейки ААА
Разъемы: - MiniUSB (USB 1.1)
- Разъем для наушников (mini-jack 3,5 мм)
Материал корпуса: Пластик
Цвет: Черный с красной вставкой
Размеры: 177,5 х 41,5 х 33 мм
Вес: 77 г (без элементов питания), 100 г (с элементами питания)

ОСОБЕННОСТИ ЭМОЦИОНАЛЬНО-ОБРАЗНОЙ ИНФОРМАЦИИ В ТЕЛЕРАДИОВЕЩАНИИ (В. А. Абрамов, О. Б. Попов, Ю. С. Рысин, МТУСИ, Москва); FEATURES OF THE EMOTIONAL - SHAPED INFORMATION IN TELEBROADCASTING (V. A. Abramov, O. B. Popov, J. S. Rysin, МТUSI, Moscow) По докладу на 17-й Международной научно-технической конференции «СОВРЕМЕННОЕ ТЕЛЕВИДЕНИЕ»
Современное все более усложняющееся постиндустриальное общество, находящееся в состоянии непрерывного изменения, нуждается в людях, доросших до его все возрастающих требований. Компьютерная и телерадиовещательная техника достигли таких высот, что говорят о наступлении информационного общества, когда главным сырьем становится информация. Однако выяснилось, что одновременно с усложнением общества и появлением умных машин происходит процесс упрощения человека, упадка культуры, нравственности, способности к усвоению информации. Т.е. подрывается фундамент, на котором строится информационное общество
Какие причины порождают данные негативные явления? Было выяснено, что одной из главных причин являются телевизор и компьютер. Это связано с особенностями восприятия информации с экранов данных устройств. Дело в том, что человек воспринимает, по крайней мере, три вида информации: смысловую (или семантическую), эмоциональную и инстинктивно-двигательную [1]. В мозгу человека осуществляется разделение информации на каналы по принципу ее обработки. При этом левое полушарие обрабатывает семантическую информацию, правое – эмоциональную, а более древние глубинные структуры мозга - инстинктивно-двигательную информацию.
Особенностью эмоциональной правой половины мозга является то, что она воспринимает все явления внешнего и внутреннего мира в виде единства, соединенности, целостной образной формы. Такое свойство эмоций часто выражается в виде стойких привязанностей.
Слушая эмоционально окрашенный голос, человек как бы входит через этот звук в резонанс с эмоциональным состоянием другого человека и начинает сам испытывать аналогичные эмоции. Этот процесс, происходящий на уровне подсознания, позволяет человеку легко понимать язык эмоций других людей, а также животных. Возникает своеобразная эмоциональная синхронизация между источником получателем. Такая синхронизация выражается в частности в совпадении микродвижений тела, а также биоритмов мозга [2].
В отличие от эмоционально-образной информации, механизм восприятия которой в значительной степени уже имелся при рождении человека, для восприятия рационально-смысловой информации требуется обучение и огромные собственные усилия человека. Опасность телевидения для человека заключается в том, что на него действует поток уже готовой информации, не требующей от человека каких-либо собственных усилий. Вследствие этого развитие механизма восприятия рационально-смысловой информации и критических способностей у человека останавливается или атрофируются. Ведь жизнь основана на собственных усилиях и функциях.
Было выяснено, что воздействие телевизионного экрана таково, что при просмотре телевизионных программ у человека ослабляются бета-ритмы мозга, связанные с восприятием рационально-смысловой информации, критикой и начинают преобладать альфа-ритмы мозга, связанные с эмоционально-образным восприятием информации. То есть, при телепросмотре наступает так называемое «альфа-состояние» [2]. Такое состояние близко к трансу, то есть, имеет место пассивное восприятие без собственного участия.
Особенностью восприятия информации в «альфа-состоянии» является то, что она не подвергается анализу, критике, она не разложима и нечувствительна к противоречиям. Сознание людей в этом случае оперирует не столько понятиями, сколько эмоционально окрашенными образами, символами. Оказывается, что при восприятии информации в «альфа-состоянии» наиболее легко манипулировать людьми. Таким образом, при неумеренном потребление телевизионной информации получается результат в виде "тысячи миллионов счастливых младенцев", о которых говорил Великий Инквизитор в романе Ф.М. Достоевского «Братья Карамазовы».
Вследствие использования механизма, эмоционально-образного восприятия информации при длительном просмотре телевизионных программ, перегруженных сценами ужаса, насилия, убийств, жестокости, садизма, приводит к отупению чувств. Такой человек уже не реагирует на пение птиц, шум леса, тихую медленную музыку и чтобы почувствовать себя "живым" он нуждается, как в наркотике, в экстраординарных, сильных стимулах в виде громкой ритмичной музыки, фильмов ужаса, сцен насилия, жестокости .
Для повышения рейтинга, а значит и доходов телевизионных и радиовещательных программ необходимо, чтобы у людей возникала стойкая привязанность к данным программам. Как этого можно достигнуть? Главным образом на основе подачи в больших количествах примитивной, но вызывающей сильную зависимость, эмоционально-образной информации и как можно в меньших количествах рационально-смысловой информации высоких уровней осмысления.
При этом, кроме содержательной стороны эмоционально-образной информации, для усиления вовлеченности аудитории, уделяется внимание также методам студийной обработки вещательных сигналов, способствующих дополнительному усилению эмоциональной привязанности у слушателей и зрителей. Так, при подъеме высокочастотных и низкочастотных компонент в спектре звукового сигнала, а также при воздействии на динамику, перепады уровней и мгновенных частот этого сигнала достигается усиление эмоциональной информативности и, как следствие, вовлеченности слушателей [3].
В связи с этим для обнаружения эмоционально-образной информации в вещательных программах и предупреждения об этом слушателя можно использовать следующие параметры акустических сигналов [3]:
- атаки и спады элементов амплитудной огибающей акустических сигналов, а также количество этих атак в единицу времени (ритмическая структура);
- доминирующие частоты, соответствующие наиболее мощным спектральным компонентам сигнала в заданный момент времени;
- коэффициенты формантной выраженности, характеризующие степень концентрации энергии в узкой полосе частот;
- дисперсия огибающей текущего спектра;
- относительная средняя мощность сигнала и другие ненормированные в настоящее время параметры.
Важно обнаруживать в информационных сигналах периоды, когда содержание эмоциональной информации становится столь большим, что может вызвать у человека сильную привязанность с отключением механизма критического восприятия. Для этого необходимо контролировать перечисленные ранее параметры сигналов и подавать слушателю предупреждающие сигналы об опасности.
Однако следует иметь в виду, что сознание человека, опирающееся в основном на эмоционально окрашенные образы и в котором неразвит собственный рационально-смысловой механизм обработки информации, оказывается подобным неживому материалу. Такое сознание поддается обработке извне, когда из него можно изготовить любое изделие, как в виде героя, так и негодяя. Но, если сознание человека живое, подобное растению, то оно во многом само определяет из какого информационного материала себя строить. Поэтому одни виды информации такое сознание усваивает, а другие виды отбрасывает. Все другие виды защиты – административные, индивидуальные пихотренировки или технические методы распознавания патологической информации не дают полноценной информационной защиты человеку. Нужен иммунитет на такую информацию. А иммунитет может возникать только у живого сознания. У сознания подобного мертвому камню иммунитет не возникнет.
Литература
1. Морозов В. П. Вычислительная техника и ее применение. М.: Знание, 1989, № 9.
2. Райнер Пацлаф «Застывший взгляд Der gefrorene Blick» Издательство: Evidentis, 2003 г.
3. Абрамов В. А., Павлова Ю. А. Рысин Ю. С Информационное воздействие акустических сигналов телерадиовещания на человека. «Электросвязь», № 2, 2007, с. 56-58.
 
Система распознавания русской дикторонезависимой речи (Cognitive Technologies). Данная система включена в обзор в развитие темы, затронутой в "ТКТ" № 1 за 1997 г. — о компонентах устройств автоматизированного перевода речи. Новизна подхода компании к решению задач речевого управления, распознавания речи и идентификации диктора состоит в создании методов анализа речи, сочетающих в себе традиционные непрерывные статистические схемы распознавания и классификации с содержательными оценками, базирующимися на знании тонкой структуры речевых объектов. Основу способов, которые компания использует для построения элементов речевых технологий, составляют:
• устойчивый алгоритм выделения основного тона диктора;
• гладкое спектральное представление сигнала;
• методы выделения формант;
• сегментация волны на фрагменты, содержащие заведомо целое число фонем;
• механизм форматного оценивания;
• методы акустически зависимого структурирования фонетических словарей;
• акустико-фонетическое преобразование;
• детекторы артикулярных событий и состояний в речевом сигнале;
• локальный и глобальный грамматический анализ;
• островной грамматический анализ.
К моменту выставки Comtek'97 комплекс речевых технологий компании включал дикторонезависимую систему распознавания речи ограниченного — до 500 слов — словаря (может использоваться для речевого управления прикладными системами) и систему синтеза речи по тексту. Кроме того, поэтапно, на период 1997-1999 гг., намечено закончить разработку следующих продуктов:
• дикторонезависимые подсистемы речевого управления пользовательскими системами на естественном языке в условиях шума;
• системы идентификации диктора по произнесенным ключевым фразам (речевые парольные замки);
• дикторонезависимые системы диктовки с большим словарем для дискретной речи (с паузами между словами) с постепенным переходом к квазинепрерывной речи;
• дикторонезависимая система распознавания слитной речи.
SIS — интерактивная система обработки речевого сигнала (Центр речевых технологий). Программно-аппаратный комплекс, позволяющий осуществить ввод речевого сигнала в память компьютера с последующим воспроизведением сигнала, его ручной и автоматической обработкой, сохранением, визуализацией, анализом, редактированием, шумоочисткой, фильтрацией, сравнением, верификацией, точным установлением текста зашумленных звукозаписей, транскрайбированием и т.д. Работа с окнами позволяет связывать изображения сигналов различной длительности, типа, размерности и частоты дискретизации. Есть возможность представления слаборазличимых сигналов в спектральной, кепстральной и других областях в виде квазитрехмерного изображения с отчетливыми характеристиками в измерениях: время/частота или период/уровень (интенсивность). Также есть несколько типов представлений третьей размерности для трехмерных картинок "Видимая речь" (первая — время, вторая — частота или период, третья — уровень): цвет, оттенки серого, плотность заполнения точками, отклонение вправо или вверх от нулевого уровня, аксонометрическая проекция с произвольным наклоном осей. Возможен интерактивный дизайн для изменения следующих характеристик изображений в трех измерениях: уровни соответствия цветов палитры, амплитуда, тип изображения, тип шкалы (линейная, логарифмическая, барки), контраст и т.д. В операции по обработке сигнала и функции подавления шума входят:
• операции с константами;
• линейные преобразования;
• нормализация;
• клиппирование;
• обнуление пауз;
• произвольное мю-преобразование (в реальном времени в момент прослушивания);
• изменение скорости воспроизведения речи без изменения основного тона (с сохранением естественности и индивидуальности голоса);
• копирование, добавление, смешение, удаление;
• произвольная линейная ПК-фильтрация (низкие частоты, высокие частоты, полосовой фильтр);
• 512-полосный графический эквалайзер, управляемый манипулятором "мышь";
• линейная адаптивная моно- и стереофильтрация Уидроу;
• удаление импульсных помех;
• динамическая фильтрация;
• подавление белого шума методом спектрального вычитания;
• автоматическая обработка и спектральная фильтрация;
• удаление стационарных шумов;
• прослушивание в режиме "псевдостерео" и т.д.
В операции анализа сигнала входят: цифровой осциллограф реального времени; измерение мгновенной и средней мощностей спектра и кепстра, спектра линейного предсказания, автокорреляции параметров линейного предсказания, формант, энергии, частоты пересечения нуля, стационарного спектра и другие виды анализа. В анализ основного тона (ОТ) входят: 6 различных методов вычисления ОТ, метод проверки правильности вычисления ОТ, подробные кривые частоты ОТ. В статистику входят: гистограмма и 28 статистических показателей кривых ОТ — максимальные, минимальные, средние и медианные значения, моменты, факторы подъема, стабильности и понижения, 8 факторов джиттера и тремора и т.д. А. Барсуков, журнал "ТКТ" № 10, 1997 г. 

Серия сообщений "Машинное обучение":
Обучение компьютерных систем. Компьютерное зрение.
Часть 1 - Тема электронного слуха на VI Международной конференции «Цифровая обработка сигналов и её применение» (по материалам РНТОРЭС им. А. С. Попова)
Часть 2 - Технологии Intel на Форуме IDF в Москве
Часть 3 - Примеры применения нейронных сетей в задачах распознавания
...
Часть 47 - Внешность какой киноактрисы предпочтительнее для женщины-робота?
Часть 48 - Тест Тьюринга и робототехника
Часть 49 - О роботизации сбора грибов

Метки:  

 

Добавить комментарий:
Текст комментария: смайлики

Проверка орфографии: (найти ошибки)

Прикрепить картинку:

 Переводить URL в ссылку
 Подписаться на комментарии
 Подписать картинку