Примеры применения нейронных сетей в задачах распознавания

Воскресенье, 09 Октября 2016 г. 07:38 + в цитатник

привела фирма StatSoftRussia. В частности, НС-система сканирует видеоизображения станций лондонского метро и определяет, вне зависимости от условий освещенности, насколько станция заполнена народом. Также в сфере обработки изображений НС-системы осуществляют оптическое распознавание символов, включая распознавание подписи с учетом не только окончательного её рисунка, но и скорости авторучки на различных участках, что значительно затрудняет подделку подписи. В сфере распознавания звука НС-системы способны на лингвистический анализ: например, сеть с т. н. «неконтролируемым обучением» используется для идентификации ключевых фраз и слов в языках туземцев Южной Америки. Синтез речи: экспериментальная система Nettalk способна произносить фонемы из написанного текста. Техническая диагностика: по вибрации и шумам в механизме можно на ранней стадии определить неисправности в нём и произвести превентивный ремонт.

То есть, методы НС можно использовать в любой ситуации, где требуется найти значения неизвестных переменных или характеристик по известным данным наблюдений или измерений, причем НС довольно устойчивы к помехам. Области применения — различные задачи регрессии, классификации и анализа временных рядов. При этом «исторических» данных, имеющихся в распоряжении исследователя, должно быть достаточное количество, а между различными изучаемыми характеристиками и параметрами должна существовать некоторая связь или система связей. НС особенно эффективны в тех задачах, когда закономерности в данных и связи между переменными носят очень сложный характер и не выявляются традиционными методами. Еще одно направление в применении нейросетей — разведочный анализ и поиск кластеров в данных. При этом в решении задачи анализа и добычи больших потоков данных оперируют такими терминами, как «бурение и расслоение данных», «разведчик общих многомерных моделей» и т. п.

Как соотнести сказанное с решением задачи распознавания образов, с чем сегодня, в принципе, справляются традиционные цифровые технологии, страдая, однако, слишком большими величинами погрешностей? За консультацией мы обратились к главному научному сотруднику 3 ЦНИИ Минобороны РФ Костогрызову А. И. В качестве ответа профессор привёл пример из книги «Инструментально-моделирующий комплекс оценки качества функционирования информационных систем «КОК» (авторы — М. М. Безкоровайный, А. И. Костогрызов, В. М. Львов). В примере гипотетический комплекс ПВО отражает налёт 20 целей, из которых 60% — ложные. Сравниваются два варианта распознавания истинных и ложных целей:

а) распознавание силами оператора,

б) распознавание специализированной нейросистемой.

Результаты расчетов показали, что вероятность корректного распознавания целей по варианту «а» не превышает 0,62. Самостоятельная работа нейросистемы в автоматическом режиме обеспечит корректность распознавания с вероятностью 0,94. А функционирование оператора, оснащенного нейросистемой, позволит повысить эту вероятность до уровня 0,96. А. Барсуков, журнал "ТКТ" " 12, 2003 г.

Ретроспектива

Цифровое автоматическое распознавание речи. МТУСИ на конференции "Цифровая обработка сигналов и её применение" представил методику для выбора эффективных акустических параметров (АП). с целью их последующей классификации. Сначала набор акустических характеристик подвергается предварительной статистической обработке с целью сокращения его размерности, при которой еще сохраняется минимальная дискриминационная способность различения классов речи. Полученный сокращенный ансамбль АП служит первоначальной информацией для тренировки обучающей системы, построенной на нейросетях. Методика позволяет значительно сократить количество параметров, характеризующих классы речевых сигналов, соответствующих различным патологиям. Использование АП широко применяется для описания клинического состояния речи (нормальной или патологической), поскольку эта процедура позволяет выявлять особенности говорящего, которые сложно рассчитать другими методами. Однако, до сих пор полностью не ясно, какова информационная ёмкость каждого из АП. В этом смысле актуален вопрос правильного выбора АП и их интерпретации с целью классификации речевых сигналов.

Акустический анализ речи требует большого количества АП, оценка которых должна проводиться в реальном времени, основываясь на процедуре кратковременного Фурье-преобразования, которая, в свою очередь, очень чувствительна к шумовым условиям электронной записи сигнала. Авторами предложена предварительная статистическая обработка начального набора АП с целью увеличения их эффективности по каждому из заданных классов речевых сигналов. Составление ансамбля эффективных АП совершается на основе выбора при заданном дискриминационном критерии. Для этого проводится исследование как корреляционных свойств, так и информационной нагрузки полного ансамбля АП. Окончательная размерность ансамбля формируется с помощью статистической процедуры анализа главных компонентов. Методика ориентирована на АРР, состоящее из двух этапов:

— расчет АП и выбор эффективного ансамбля для каждого из заданных классов речи;

— тренировка обучающей системы АРР, построенной на нейросетях с использованием в качестве входа полученного эффективного ансамбля.

Акустический анализ речи состоит в определении колебательных параметров или АП, характеризующих её гармоническую природу. В зависимости от выбираемых для измерения акустические свойства АП могут быть разделены на две категории:

— квазигармонические АП, проявляющие всевозможные виды периодичности, имеющиеся в речевом сигнале; к этим параметрам относятся питч, форманты и ширина их полосы;

— шумовые АП, измеряющие относительные характеристики шумового фона в речевом сигнале; примеры этой категории — джиттер, шиммер и гармонический компонент шума.

Выбор АП подразумевает характеристики, легко измеряемые и слабо зависящие от помеховой обстановки, в частности, от фонового шума. На практике электронная обработка речи деградирует из-за электронно-акустических устройств преобразования сигнала (микрофона, АЦП, динамика и пр.). В работах МТУСИ рассмотрена компенсация помеховых составляющих, возникающих во время электронной записи речи при наличии стационарного или квазистационарного фонового шума. Фоновый шум непосредственно приводит к ошибке в оценке АП, точность которой необходима для правильной классификации и АРР. С другой стороны, эффективность оценки АП ухудшается, если не устранять искажающие речь помехи. Например, если характер помех во время тренировки обучающей системы речевого классификатора отличается от таковых при оценке АП в момент распознавания, то работа АРР заметно ухудшается. Поэтому необходимо применять методы улучшения входных речевых сигналов, чтобы уменьшить чувствительность к помеховой обстановке. А. Барсуков, журнал "ТКТ", № 7, 2002 г.

ВИДИМАЯ РЕЧЬ. Потеря слуха часто влечет за собой и другое несчастье — потерю речи. Глухой человек теряет самоконтроль за речью, не может оценить громкость, эмоциональную окраску произносимых слов. Однако специалисты пытаются сохранить у оглохших людей разговорные навыки. По всей вероятности, хорошую помощь окажет прибор видимой речи — ВИР, созданный изобретателями В. Лаптевым, Л. Постниковым и В. Цукерманом.

Сигнал от микрофона после преобразования попадает на особый экран, на котором каждый звук получает свое индивидуальное очертание. Из рисунков складываются слова, как из букв. Ученик внимательно изучает артикуляцию и рисунок учительской речи и старается вызвать на экране ВИРа точно такой же рисунок, какой получается у преподавателя. А сходен рисунок — значит, сходно звучание. При этом нужна не очень длительная тренировка: ведь у глухонемых поразительно развита зрительная память. Из сборника "Эврика", 1967 год

25 Февраля 2004 - Компания «Сакрамент» приглашает посетить свой стенд на одной из крупнейших в мире выставке современных информационных технологий и систем автоматизации CeBIT 2004, (г. Ганновер, Германия 18-24.03.2004 г.).

На выставке компания «Сакрамент» представит свои новейшие разработки в области речевых технологий:

Система синтеза речи Sakrament TTS Engine - преобразует текстовую или числовую информацию в качественный синтезированный голос, по восприятию близкий к человеческому. Языки: Английский, Русский; Голоса: 6 мужских и 4 женских; Стандарт: MS SAPI 5.1;

Система распознавания речи Sakrament ASR Engine - распознает человеческую речь, позволяя использовать естественный для человека речевой интерфейс для общения с электронной техникой. Языки: не зависит от языка; Точность распознавания: более 98 процентов; Размер Словаря: виртуально неограничен; Стандарт: MS SAPI 5.1;

Система клонирования голоса Sakrament Personal Voice Master, предназначенная для автоматического создания пользователями собственного синтезированного голоса;

Устройство Sakrament SpeechBOX - реализация Sakrament TTS/ASR на микропроцессорной платформе.

21 апреля 2009 г. в рамках выставки, посвященной научно-техническим достижениям, фирма «ОТ-КОНТАКТ» провела презентацию программно-аппаратного комплекса речевого управления «Тембр РУ-1». Фирмой разработана технология, позволяющая голосом управлять разнообразными устройствами: компьютером, бытовыми приборами, игрушками и т.д. Макет системы состоит из трех частей: радио-гарнитуры, программного модуля распознавания команд и инфракрасного (ИК) приемопередающего устройства - «ТембрИК».

Благодаря использованию средств шумоподавления и специальных алгоритмов распознавания, речевое управление сохраняет работоспособность при соотношении сигнал/шум в зоне гарнитуры 10 дБ. Таким образом, даже на фоне достаточно громких посторонних звуков: музыка, шум бытовой техники, речь других дикторов, система речевого управления с достаточно высокой точностью распознает команды.

Благодаря использованию иерархического разделения набора команд возможно создание систем речевого управления с практически неограниченным набором команд. Отдельная иерархия может содержать 100 и более команд.

Использование специальной радиогарнитуры (радиус действия до 50 метров в помещении), позволяет осуществлять управление техникой из любой точки небольшого офиса или квартиры.

01 Март 2012) - Компания Analog Devices, Inc. представила высококачественный микрофон на основе технологии МЭМС (микро электромеханические системы) ADMP504, обладающий самым низким в отрасли уровнем шума. ADMP504 обеспечивает отношение сигнал-шум на уровне 65 дБА (эквивалентный входной шум 29 дБА), что соответствует качеству, обеспечиваемому массивом из двух микрофонов с отношением сигнал-шум 62 дБ. Кроме того, ADMP504 имеет широкую частотную характеристику (до 20 кГц) и высокое ослабление пульсаций в цепи питания (70 дБВ). Обладая такими показателями, ADMP504 способен удовлетворять повышенные требования, предъявляемые в различных промышленных и профессиональных системах аудио- и видеоконференций. В основе этого нового микрофона лежат патентованная технология МЭМС и богатый опыт компании Analog Devices в области обработки звуковых сигналов. Компонент выпускается в тонком корпусе для поверхностного монтажа, имеющем габариты 3.35 мм x 2.50 мм x 0.88 мм.

ADM504 представляет собой микрофон в корпусе для поверхностного монтажа, который поддерживает пайку методом оплавления припоя без ухудшения чувствительности. Уровень чувствительности, обеспечиваемый компонентом (-38 дБВ), хорошо подходит для работы со многими кодеками и дискретными компонентами сигнальной цепочки. Высокое отношение сигнал-шум, составляющее 65 дБА (эквивалентный входной шум 29 дБА), позволяет осуществлять прием сигнала в дальней зоне и использовать компонент для построения систем направленных микрофонов. Малый потребляемый ток (типичное значение менее 180 мкА) и работа от напряжения питания в диапазоне от 1.6 В до 3.3 В продлевает срок службы батарей в портативных устройствах.

3 июля 2012 г. – Компания «Электронные словари», официальный дистрибьютор Tiwell Assistant LLC в России, представляет электронный переводчик ASSISTANT AT-1412 Travel. Новая модель выделяется возможностью перевода текста на 12 языков, большой словарной базой, включающей 8 авторитетных Оксфордских словарей, расширенными функциями обучения и возможностью перепрошивки переводчика на другой комплект словарей.

12 ноября 2012 г. Компания InfoWatch и «Центр речевых технологий» представляют совместное решение для автоматизированного контроля соблюдения политики безопасности при использовании средств голосовой связи. Решение ориентировано на специалистов служб информационной и экономической безопасности, департаментов контроля качества, сервисных подразделений. Основная идея интеграции - сочетание преимуществ DLP-системы InfoWatch Traffic Monitor Enterprise и системы мониторинга голосового канала STC Voice Monitor.

До недавнего времени голосовые коммуникации были фактически неконтролируемым каналом передачи информации. Корпоративные системы защиты, в том числе DLP-решения, не могли обеспечить предотвращение утечки критически важных данных в случае, если эти данные передавались голосом в ходе сеансов видеоконференций, телефонных переговоров с использованием стационарных и мобильных телефонов, через Skype .

Интеграция разработок InfoWatch и «Центра речевых технологий» позволяет «закрыть» этот канал. Голосовой трафик записывается средствами STC Voice Monitor. Далее система преобразует его в текст, ищет ключевые слова, заданные общими политиками безопасности, определяет тематику и автора сообщения. Затем голосовой трафик возвращается в InfoWatch Traffic Monitor Enterprise в виде текста. DLP-система средствами лингвистики анализирует текст на предмет наличия в переданных сообщениях конфиденциальной информации. Копия трафика (файлы со служебными метками – тема, автор сообщения, вхождение ключевых слов) сохраняется в хранилище InfoWatch Traffic Monitor (Forensic Storage).

16 мая 2013 г. ― Компания Vocollect, бизнес-подразделение компании Intermec, Inc. (NYSE:IN) и мировой лидер в области голосовых решений для мобильных сотрудников, сегодня представила свое новое устройство Talkman A700, являющееся первым в отрасли интегрированным переносным решением для управления голосом и сканирования.

Устройство помогает работать с более высокой производительностью благодаря тому, что закрывает потребность в нескольких периферийных устройствах, а следовательно, расходы на них и необходимость управления ими. Все это создает качественно новые условия работы для удаленных сотрудников. Компактное специализированное мобильное устройство позволяет без помощи рук выполнять сканирование, например, для формирования складских мест, сортировки партий товара и отслеживания продукции.

14.11.2013. PROMT дарит к Новому году перевод изображений!

Компания PROMT обновила флагманское серверное решение PROMT Translation Server 10 и в канун Нового года дает возможность получить в подарок Модуль перевода текста в изображениях (форматы PDF, JPEG, GIF, TIFF).

PROMT Translation Server 10 – клиент-серверное решение для автоматического перевода текстов, документов и сайтов:

перевод высокого качества в любом приложении,

перевод документов с сохранением форматирования (в том числе графических форматов),

безопасность и конфиденциальность переводимой информации.

Мнение справочника "Кто есть кто в робототехнике". Не надо бояться, что США перегонят Россию в области технологий: если стремиться к победе коммунизма во всём мире, то все технологии станут общим достоянием.

Экспонаты радиотехнического профиля на выставке "Электро-96". 6-я Международная выставка "Электро-96" проводилась со 2 по 6 июля 1996 г. Организаторы выставки, в которой приняли участие около 300 фирм из 22 стран, — Комитет РФ по машиностроению и АО "Стандартэлектро". Насыщенность современной электроэнергетики сложными электронными узлами обусловила представительство на выставке технологий радиотехнического профиля.

АМР: соединительные системы для компьютеров и сетей связи.

АО "Ампер": свинцово-кислотные аккумуляторы, гальванические элементы и батареи.

Baluff GMBH & Co: датчики всех типов, системы идентификации.

АО "Бурый медведь": ВЧ и оптические разьемы, кабель для ЛВС.

НПП ВНИИЭМ: космические аппараты "Ресурс-01".

ГНЦ ВЭИ: исследования в области сверхпроводимости.

Индустрия каблова, АО "Иркутсккабель", АООТ "Кирскабель", АО "Народная фирма электропровод", АО "Псковский кабельный завод", Ассоциация "Электрокабель", АО "Подольсккабель", АО "Самарская кабельная компания", АО "Сибкабель": кабели и провода всех видов.

Квардус Лтд: электронные компоненты.

ООО "Крокус-Трейд": ТВ-разъемы, биовыключатели.

АНПП "Луганские аккумуляторы": Ni-Cd и Ni-Fe батареи.

АООТ Лыткаринский завод оптического стекла: изделия волоконной техники.

Megatron Firmengruppe: технологии чувствительных элементов, техника микроданных.

АОЗТ Завод "Молдавизолит", АОЗТ НПФ "Росламинат": фольгированные диэлектрики, в том числе СВЧ.

PLC Systems: средства КИП, промышленные компьютеры. А. Барсуков, журнал "Зарубежная радиоэлектроника" № 9, 1996 г.

ПРИЗЫ ВРУЧЕНЫ ПОБЕДИТЕЛЯМ. Сегодня в редакции газеты «Вечерняя Москва» состоялось награждение победителей конкурса на лучшую разработку плаката.

Он проводился издательством ЦК КПСС «Плакат» и «Вечерней Москвой» под девизом «Эффективность. качество, дисциплина»,

Первые, вторые, третьи места жюри не присудило. хотя на конкурс поступило около 300 эскизов, предложений тем и разработок плакатов, стихотворных подписей. Поощрительные премии и дипломы вручены художнику В, Мохову, работнику Главного управления капитального строительства Мосгорисполкома Ю. Лафанову, студенту А. Кашлинскому, научному сотруднику А. Валяеву, экономисту И. Дагаевой, инженеру О. Артемову, военнослужащему А. Подкосову, научному сотруднику А. Лысикову, работнику киностудии «Центрнаучфильм» А. Барсукову (через эту ссылку можно без регистрации бесплатно скачать справочник, авторские материалы которого разрешено использовать для написания таких работ, как эссе, сочинение, доклад, реферат, курсовая работа, дипломная работа, бакалаврская / магистерская работа, диссертация - прим. ред.), токарю В. Шаулину, дизайнеру Г. Трощинскому, журналисту И. Карелину, пенсионеру С, Гиршфельдту.

Темы лучших работ будут использованы художниками издательства «Плакат» в новых произведениях графического искусства. Газета "Вечерняя Москва", 14 ноября 1987 г.

Развитие программ анализа и синтеза речи сделает интеллектуальной и интерактивной такую услугу, как "секс по телефону". Общаться с клиентом будет робот-актриса, которая в самом начале диалога будет менять голос и следить как клиент реагирует на те или иные высоту голоса, тон, тембр, обертоны, интонации, модуляцию. Определив параметры, которые вызывают наиболее живую реакцию клиента, робот будет задавать наводящие вопросы, ответы на которые позволят системе искусственного интеллекта составить психологический портрет клиента, понимание его проблем и желаний. Литературная программа, подстраиваясь под результаты этого анализа будет в реальном времени сочинять сценарий дальнейшего общения, которое позволит держать клиента в такой кондиции, пока он не потратит на данную услугу все свои деньги.

Пример диалога для тренировки робототехнических систем на распознавание и синтез современной разговорной речи

Преспокойно глядя на него, Лара осведомилась:

— С чего начать прикажете? Мне ложиться или как? Девушка участвует или она только смотреть будет?

— Сядь, — сказал Мазур. — Поговорим серьезно.

Лара опустилась в ближайшее кресло, непринужденно закинула ногу на ногу, проворно расстегнула пуговицы и распахнула куцый халатик, открыв взорам великолепное тело. Наматывая на указательный палец локон, как ни в чем не бывало улыбнулась Мазуру:

— А ведь ты меня, котик, по-прежнему хочешь, даже теперь. Вон как брюки топырятся. Давай начнем с минета по старой памяти, только непременно в резинке. И тебе приятно, и девушка заодно поучится, а то вдруг она квалифицированно сосать не умеет... Ну?

Все это было произнесено самым непринужденным тоном, со светской улыбкой. «Ага, — подумал Мазур, — это, надо полагать, и есть выбранная линия защиты от грубой и похабной реальности, нечто вроде клише "Принцесса в лапах пиратов". Нет, но великолепно держится, стервочка...»

Он оглянулся на напарницу чуточку растерянно — никому бы в этом не признался вслух, но сейчас он искренне не представлял, как переломить ситуацию в свою пользу и придать беседе должное направление. Мужику бы он с ходу въехал по зубам, что всегда способствует откровенности, но что прикажете делать с этой стервой? Тут решаться надо, подготавливать себя внутренне — даже прекрасно помня, какую она ему участь готовила.

Катя, поймав его взгляд, не колебалась ни секунды — гибко взмыла из кресла, подошла к Ларе и неожиданно залепила ей столь смачную и оглушительную пощечину, что Мазур на миг оторопел. Потом с тем же безразличным выражением на смазливом личике громко, раздельно скомандовала — Застегнись, сучка, и сядь нормально, пока я тебе козью морду не захерачила...

Лара, с багровеющим на щеке отпечатком пятерни, кинула на нее исполненный бессильной злости взгляд, но, к некоторому удивлению Мазура, послушно застегнулась и уселась, как школьница в классе. Вернувшись на свое место, Катя тем же бесстрастным тоном посоветовала:

— Будешь ерепениться или запираться, вибратор горчицей намажу и загоню на всю длину, не доверяя мужикам столь ответственное дело. Усекла, прошмандовка?

Александр Бушков, «Пиранья против воров-2»

Серия сообщений "Машинное обучение":
Обучение компьютерных систем. Компьютерное зрение.
Часть 1 - Тема электронного слуха на VI Международной конференции «Цифровая обработка сигналов и её применение» (по материалам РНТОРЭС им. А. С. Попова)
Часть 2 - Технологии Intel на Форуме IDF в Москве
Часть 3 - Примеры применения нейронных сетей в задачах распознавания
Часть 4 - Суперкомпьютер IBM Watson: создан прототип «умного робота»
Часть 5 - Распознавание лиц пешеходов-нарушителей правил дорожного движения
...
Часть 47 - Внешность какой киноактрисы предпочтительнее для женщины-робота?
Часть 48 - Тест Тьюринга и робототехника
Часть 49 - О роботизации сбора грибов