Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

Системы автоматического распознавания речи История, классификация, методы, примеры

Лекция



Сразу хочу сказать, что здесь никакой воды про системы автоматического распознавания речи, и только нужная информация. Для того чтобы лучше понимать что такое системы автоматического распознавания речи, сарр , настоятельно рекомендую прочитать все из категории Автоматическое распознавание речи.

Содержание

сарр — что это такое?

Голосовые ключи

Немного истории

Классификация систем распознавания речи

  • 2.1 Типовые задачи
  • 2.2 Цели идентификации личности по голосу

Прогнозы аналитиков

Основные сложности

Предложения современного рынка САРР

Aculab

Babear SDK Version 3.0

Loquendo ASR

LumenVox

Nuance

SPIRIT

VoiceWare

  • Механизмы распознавания речи
    • 3.1 Методы и алгоритмы распознавания речи
  • 4 Признаки эмоционально окрашенной речи в системах распознавания
    • 4.1 Спектрально-временные признаки
    • 4.2 Кепстральные признаки
    • 4.3 Амплитудно-частотные признаки
    • 4.4 Признаки нелинейной динамики
    • 4.5 Параметры качества речи
  • 5 Ключевые понятия
  • 6 Область применения
  • 7 Пример
    • 7.1 Алгоритм
    • 7.2 Реализация
    • 7.3 Результат экспериментов

Как хорошо было раньше! Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 — для связи с тем-то, 3 — для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не человеком. В этом есть своя логика: однообразная, неинтересная работа выполняется не человеком, а машиной. И для пользователя процедура получения информации упрощается: назвал определенный набор цифр — получил нужную информацию.

Как же работает такая система? Давайте попробуем разобраться.

Двумя основными типами программ для распознавания речи являются:

• голосовые, или речевые, навигаторы (voice navigator) для управления программным и аппаратным обеспечением; их еще называют «программами распознавания команд»;

• программы для диктовки — ввод текста и цифровых данных.

Голосовые навигаторы управляют программами, в какой-то мере заменяя клавиатуру и мышь. Они имеют небольшой словарь (100-300 слов). Некоторые могут работать со слитной речью и не требуют обучения.

Сразу оговоримся, что системы Text-to-speech и speech-to-text, то есть переводящие текст в устную речь и наоборот, мы рассматривать не будем. Ограничимся только системами автоматического распознавания команд, или голосовыми навигаторами.



САРР — что это такое?

системы автоматического распознавания речи (САРР) — это элемент процесса обработки речи, назначение которого — обеспечить удобный диалог между пользователем и машиной. В широком понимании речь идет о системах, которые осуществляют фонемное1 декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, САРР может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации.

САРР весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. САРР позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.

Обычно САРР используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д.), мультимедийные приложения (системы обучения языку).

Голосовые ключи

Г олосовыми ключами иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы либо санкционированного доступа к информации, либо физического доступа к объектам. Следует различать две разновидности таких систем: системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, то есть заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду.

При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является опознаваемый по голосу человек. Сегодня известно множество подходов и методов для реализации таких систем, и все они, как правило, отличаются друг от друга — сколько разработчиков, столько и их разновидностей. То же самое можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи допустимо только с помощью специальных тестовых баз данных.

Немного истории

С оединенные Штаты Америки, конец 60-х годов XX века: «Три», — сказал Валтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», — пробормотал Валтер. «Этого слова нет в словаре», — ответил компьютер.

Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.

Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения — и багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.

После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.

Сегодня в этом направлении работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.

Уже в течение нескольких лет голосовые навигаторы, или системы распознавания команд, успешно применяются в различных областях деятельности. Например, call-центр OmniTouch, поставленный Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.

В Швеции не так давно была открыта автоматическая телефонная справочная служба, использующая программу распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.

Новая услуга предназначена в основном для частных клиентов, которые предпочтут ее из-за значительно меньшей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе (в США испытания аналогичной службы в компании AT&T были начаты в декабре прошлого года).

Вот несколько примеров использования этой технологии в США.

Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда риэлтер проезжает на машине по улице и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает сведения о доме с таким-то номером, находящемся на такой-то улице. Автоответчик приятным женским голосом рассказывает ему о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата — около 30 долл. в месяц.

Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании поездов, об их прибытии и отправлении, а также производит бронирование билетов. Джули — это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности тогда был меньше: всего 9 клиентов из 50.

В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нанимать на работу целую команду служащих. А British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.

Недавно Sony Computer Entertainment America представила Socom — первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было продано 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.

В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.

Даже в медицине технология распознавания голоса нашла свое место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замедленная реакция на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Об этом говорит сайт https://intellect.icu . Вероятно, скоро не нужно будет мучиться, чтобы разобрать в медицинской карте почерк врача.

Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе — AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.

Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.

Классификация систем распознавания речи

Системы распознавания речи можно классифицировать в зависимости от:

  • назначения (системы диктовки, командные системы);
  • типа речи (слитная или раздельная речь);
  • размера словаря (ограниченный набор слов, словарь большого размера);
  • диктора (дикторозависимые и дикторонезависимые системы);
  • механизма функционирования ( простейшие (корреляционные) детекторы, экспертные системы с различным способом формирования и обработки базы знаний, вероятностно-сетевые модели принятия решения, в том числе нейронные сети);
  • используемого алгоритма (нейронные сети, скрытые Марковские модели, динамическое программирование);
  • типа структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
  • принципа выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищенность обеспечивается, прежде всего, использованием двух механизмов:

  • Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
  • Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Системы автоматического распознавания речи История, классификация, методы, примеры

Рис.2. Различные классификации систем распознавания речи.

Прогнозы аналитиков

Сегодня технологии распознавания речи считаются одними из наиболее перспективных в мире. Так, по прогнозам американской исследовательской компании Cahners In-Stat, мировой рынок ПО распознавания речи к 2005 году увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год: с 650 млн. долл. в 2000 году до 5,6 млрд. долл. в 2006-м (рис. 1). Эксперты, сотрудничающие с медиакорпорацией CNN, отнесли распознавание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 году распознавание речи вообще вытеснит с рынка все остальные речевые технологии (рис. 2).

Основные сложности

Главная проблема, возникающая при разработке САРР, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Человека это не смутит, а вот компьютер — может. Кроме того, на входящий сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть подстроена под них до начала работы.

Однако более чем полувековая работа над различными САРР дала свои плоды. Практически любая современная система может работать в нескольких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора система требует специального обучения под конкретного пользователя, чтобы точно распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система проанализирует и запомнит результаты. Этот режим обычно используется в системах диктовки, когда с системой работает один пользователь.

Дикторонезависимая система может быть использована любым пользователем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, например в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в использовании, например она может работать с неограниченным кругом пользователей и не требует обучения.

Во-вторых, системы делятся на работающие только с изолированными командами и на способные распознавать связную речь. Распознавание речи является значительно более сложной задачей, чем распознавание отдельно произносимых слов. Например, при переходе от распознавания изолированных слов к распознаванию речи при словаре в 1000 слов процент ошибок увеличивается с 3,1 до 8,7, кроме того, для обработки речи требуется в три раза больше времени.

Режим изолированного произнесения команд наиболее простой и наименее ресурсоемкий. При работе в этом режиме после каждого слова пользователь делает паузу, то есть четко обозначает границы слов. Системе не требуется самой искать начало и конец слова в фразе. Затем система сравнивает распознанное слово с образцами в словаре, и наиболее вероятная модель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов2 .

Режим слитного произнесения более натурален и близок пользователю. При этом предполагается, что система сама различит границы слов во фразе. Однако этот режим требует гораздо больше системных ресурсов и памяти, а точность распознавания ниже, чем в предыдущем режиме. Почему это так? Причин несколько. Во-первых, при слитной речи произнесение слов менее аккуратно, чем в «режиме PIN-кода», то есть когда каждое слово произносится отдельно. Во-вторых, скорость речи даже у одного человека разная. Он может задуматься, засомневаться, забыть слово. В разговорной речи часто встречаются слова-паразиты: «ну», «а», «вот». Кроме того, границы слов часто смазываются, произносятся нечетко, что затрудняет работу системы.

Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов и т.д.

На стыке слитного и раздельного произнесения слов возник режим поиска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем потоке речи. Где это может быть использовано? Например, в подслушивающих устройствах, которые включаются и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, система выделяет смысловые слова и, распознав их, выдает необходимую информацию.

Размер используемого словаря — важная составляющая САРР. Очевидно, что чем больше словарь, тем выше вероятность того, что система ошибется. Во многих современных системах есть возможность или дополнять словари по мере необходимости новыми словами, или подгружать новые словари. Обычный уровень ошибок для дикторонезависимой системы с изолированным произнесением команд — около 1% для словаря в 100 слов, 3% — для словаря в 600 слов и 10% — для словаря в 8000 слов.

Предложения современного рынка САРР

На рынке сегодня представлены CАРР различных компаний. Рассмотрим некоторые из них.

Aculab Системы автоматического распознавания речи История, классификация, методы, примеры

Точность узнавания 97%.

Дикторонезависимая система. Разработчики системы проанализировали различные базы данных для многих языков, чтобы учесть все вариации речи, возникающие в зависимости от возраста, голоса, пола и акцента. Собственные алгоритмы обеспечивают распознавание речи независимо от особенностей оборудования (наушников, микрофона) и характеристик канала.

Система поддерживает возможность создания дополнительных словарей, учитывающих особенности произношения и акцентов. Это особенно полезно в тех случаях, когда системой пользуются люди, произношение которых сильно отличается от общепринятого.

Система поддерживает наиболее распространенные языки, такие как британский и американский английский, французский, немецкий, итальянский, североамериканский испанский. Словарь может быть настроен на любой из этих языков, но невозможно одновременно использовать несколько языков в составе одного словаря.

Продукт доступен на базе Windows NT/2000, Linux и Sun SPARC Solaris.

Babear SDK Version 3.0 Системы автоматического распознавания речи История, классификация, методы, примеры

Дикторонезависимая система, не требующая обучения под конкретного пользователя. Адаптация под пользователя происходит во время работы и обеспечивает наилучший результат распознавания. Автоматическая подстройка на голосовую активность позволяет распознавать речь в сильно зашумленной среде, например в салоне автомобиля. Система не определяет слова, не занесенные в словарь. Предусмотрена возможность поиска ключевых слов. Система может быть настроена на работу как с маленьким словарем (изолированное произнесение команд), так и с большим по объему словарем (речь).

Система поддерживает следующие языки: британский и американский английский, испанский немецкий, французский, датский, шведский, турецкий, греческий, исландский и арабский.

Система работает на базе Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X и Linux.

Loquendo ASR Системы автоматического распознавания речи История, классификация, методы, примеры

Дикторонезависимая система, оптимизированная для использования в телефонии. Предусмотрена возможность распознавания отдельных слов и речи, поиска ключевых слов (словарь до 500 слов). Позволяет создавать дружественные пользователю приложения за счет большого объема словаря и гибкости системы.

Поддерживает 12 языков, включая наиболее распространенные европейские языки (итальянский, испанский, британский и американский английский, французский, немецкий, греческий, шведский и др.).

Входит в состав продукта Loquendo Speech Suite вместе с системой text-to-speech и программой Loquendo VoiceXML Interpreter, поддерживающей использование различных голосов и языков.

Система работает на базе MS Windows NT/2000, UNIX и Linux.

LumenVox Системы автоматического распознавания речи История, классификация, методы, примеры

Дикторонезависимая система, не требующая обучения, но после адаптации под конкретного пользователя результаты распознавания становятся гораздо лучше: точность распознавания превышает 90%.

Поддерживает различные форматы аудиофайлов: (u-law 8 кГц, РСМ 8 кГц, РСМ 16 кГц). Не имеет жестких требований к аппаратным ресурсам. Работает на базе Windows и Linux.

Nuance

По словам производителей, система оптимизирована для наименьшего потребления памяти и других системных ресурсов. Точность распознавания — до 96%, причем остается высокой даже в зашумленном помещении.

Есть возможность самообучения системы и ее подстройки под каждого пользователя.

Работает на базе Windows 2000 и Linux.

SPIRIT Системы автоматического распознавания речи История, классификация, методы, примеры

Язык может быть любой (словарь составляется под конкретные требования клиента и включает те слова и на том языке, которые клиент указал в требованиях к настройкам системы. В словарь могут быть включены слова из разных языков, то есть, не меняя настроек, система может распознавать слова, например, как на китайском, так и на финском языке, если они были заранее внесены в словарь). Таким образом, эта система может работать с любым языком, тогда как другие системы — лишь с определенным их набором.

Это автоматическая система распознавания речи, обеспечивающая высокое качество распознавания даже в сильно зашумленной среде. Система может быть легко настроена на работу в одном из двух режимов: распознавание фраз с фиксированным числом команд (произнесение отдельных команд, режим PIN-кода) и распознавание фраз с произвольным числом команд (слитное произнесение команд, «режим связной речи»). Есть возможность поиска ключевых слов. Данное решение работает в условиях аддитивного нестационарного шума. Требуемое соотношение «сигнал/шум» до 0 дБ в «режиме PIN-кода» и до +15 дБ в режиме связной речи.

Задержка распознавания — 0,2 с. Параметры акустического канала: полоса пропускания в пределах 300-3500 Гц. Адаптация к акустической среде производится по фрагментам шума суммарной длиной не менее 3 с.

Для «режима PIN-кода»:

• словарь — 50 команд;

• вероятность правильного распознавания — 95-99% при SNR3 = 0…6 дБ;

• требуемые акустические условия: аддитивный широкополосный статичный шум с SNR (отношение «сигнал/шум») >= 15 дБ.

Для режима распознавания связной речи:

• словарь — 12 слов /цифр;

• вероятность правильного распознавания цепочки слов — 98-99%.

Специфика: адаптация к произвольным шумам.

Автоматическая система распознавания речи от SPIRIT доступна в форме приложения для PC под MS Windows или ассемблерного кода. По запросу клиентов решение может быть портировано на любую DSP- или RISC-платформу.

VoiceWare Системы автоматического распознавания речи История, классификация, методы, примеры

Система может работать как в дикторозависимом, так и в дикторонезависимом режиме, поэтому специального обучения системы для работы с конкретным пользователем не требуется.

Обеспечивается высокая точность распознавания и работа в реальном времени, даже в зашумленной среде.

Система распознает связную речь и последовательный перечень цифр.

Слова, не занесенные в словарь, и посторонний шум не воспринимаются ею, а ничего не значащие слова, такие как «а», «ну» и пр., отбрасываются.

Новые слова могут быть добавлены в словарь.

Система автоматически подстраивается под тон, произношение и другие речевые особенности пользователя.

VoiceWare поддерживает американский английский и корейский языки; китайский и японский — в разработке.

Система работает на базе Windows 95/98/NT 4.0, UNIX и Linux.

Механизмы распознавания речи

В большинстве существующих механизмов можно выделить четыре основных модуля:

  1. Модуль сбора данных - включает получение входного сигнала и его предварительную обработку, которая может включать автоматическую регулировку усиления, подавление эха, обнаружение присутствия/отсутствия речи и обнаружение интонационного конца фразы. Этот модуль включает также выделение отрезка речи из входящего речевого сигнала.
  2. Экстрактор - выполняет частотный анализ сигнала. Акустическо-фонетичесий поток данных разбивается на короткие кадры, или векторы, продолжительностью около 10 мс. Как правило, для каждого кадра определяется ряд параметров, используя быстрое преобразование Фурье. Кроме того, многие системы используют вместо или вместе с этими характеристиками другие, например, спектральные характеристики, а также первую и вторую производную от спектральных характеристик.
  3. Компаратор - осуществляет акустическое сравнение: каждый кадр, или вектор, сравнивается с имеющимися акустическо-фонетическими образцам, хранящимися в специальной базе данных. При этом сравниваться могут как отдельные фонемы, так и слова, и даже фразы. При небольшом количестве слов, используемых диктором, более высокую надежность и скорость можно ожидать от распознавания целых слов, но при увеличении словаря скорость резко падает, и оптимальным становится распознавание отдельных фонем.
  4. Интерпретатор решает задачу динамического программирования с целью найти наилучшее разбиение полученного от компаратора "алфавитного" потока на слова и фразы. В зависимости от объема используемого словаря и действующих синтаксических правил, применяются различные стратегии поиска и отсева.

В данном блоке из распознанных фонем формируются слова, а из слов фразы. При этом также часто используется балльная (или вероятностная) система сравнения результатов. Например, может использоваться алгоритм лучевого поиска по Витерби для определения наиболее вероятного предложения.

Системы автоматического распознавания речи История, классификация, методы, примеры

Рис.4. Схема механизма распознавания речи.

Методы и алгоритмы распознавания речи

Классификация методов распознавания речи на основе сравнения с эталоном:

  • Динамическое программирование — временные динамические алгоритмы (Dynamic Time Warping).

Контекстно-зависимая классификация - при ее реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы.

  • Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination);
  • Скрытые Марковские модели (Hidden Markov Model);
  • Нейронные сети (Neural networks).

Существует несколько алгоритмов определения начала и конца речи.

  1. В одном из них определяется некоторый пороговый уровень сигнала. Начальная точка речи в этом случае соответствует моменту, когда входящий сигнал начинает превышать пороговый уровень, а конечная точка – моменту, где амплитуда входящего сигнала меньше пороговой. Основной недостаток этого метода заключаются в невозможности точного определения речевого отрезка в случае сильного шума, или, наоборот, тихой речи.
  2. Другой метод использует нормализацию амплитуды входного сигнала в соответствии с минимальной амплитудой. Полученные нормализованные значения сравниваются с пороговым значением.

Признаки эмоционально окрашенной речи в системах распознавания

Основные понятия, которые характеризуют параметры речи человека, связанные с формой, размерами, динамикой изменения речеобразующего тракта и описывающие эмоциональное состояния человека, можно разделить на четыре группы объективных признаков, позволяющих различать речевые образцы: спектрально-временные, кепстральные, амплитудно-частотные и признаки нелинейной динамики. Рассмотрим подробнее каждую группу признаков:

Спектрально-временные признаки

Спектральные признаки:

  • Среднее значение спектра анализируемого речевого сигнала;
  • Нормализованные средние значения спектра;
  • Относительное время пребывания сигнала в полосах спектра;
  • Нормализованное время пребывания сигнала в полосах спектра;
  • Медианное значение спектра речи в полосах;
  • Относительная мощность спектра речи в полосах;
  • Вариация огибающих спектра речи;
  • Нормализованные величины вариации огибающих спектра речи;
  • Коэффициенты кросскорреляции спектральных огибающих между полосами спектра.

Временные признаки:

  • Длительность сегмента, фонемы;
  • Высота сегмента;
  • Коэффициент формы сегмента.

Спектрально-временные признаки характеризуют речевой сигнал в его физико-математической сущности исходя из наличия компонентов трех видов:

  1. периодических (тональных) участков звуковой волны;
  2. непериодических участков звуковой волны (шумовых, взрывных);
  3. участков, не содержащих речевых пауз.

Кепстральные признаки

  • Мел-частотные кепстральные коэффициенты;
  • Коэффициенты линейного предсказания с коррекцией на неравномерность чувствительности человеческого уха;
  • Коэффициенты мощности частоты регистрации;
  • Коэффициенты спектра линейного предсказания;
  • Коэффициенты кепстра линейного предсказания.

Амплитудно-частотные признаки

  • Интенсивность, амплитуда
  • Энергия
  • Частота основного тона (ЧОТ)
  • Формантные частоты
  • Джиттер (jitter) — дрожание частотная модуляция основного тона (шумовой параметр);
  • Шиммер (shimmer) — амплитудная модуляция на основном тоне (шумовой параметр);
  • Радиальная базисная ядерная функция
  • Нелинейный оператор Тигер

Признаки нелинейной динамики

  • Отображение Пуанкаре;
  • Рекуррентный график;
  • Максимальный характеристический показатель Ляпунова — Эмоциональное состояние человека, которому соответствует определенная геометрия аттрактора (фазовый портрет);
  • Фазовый портрет (аттрактор);
  • Размерность Каплана-Йорка — количественная мера эмоционального состояния человека, от «спокойствия» до «гнева» (деформация и последующее смещение спектра речевого сигнала).

Параметры качества речи

Параметры качества речи по цифровым каналам можно определить по таким параметрам, как: слоговая разборчивость речи, фразовая разборчивость речи, качество речи по сравнению с качеством речи эталонного тракта и качеству речи в реальных условиях работы.

Ключевые понятия

Можно выделить ряд общих терминов, которые могут использоваться в процессе распознавания речи: 1) разборчивость речи — относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов; 2) нормальный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 2,4 с.; 3) ускоренный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 1,5-1,6 с.; 4) смысловая разборчивость — показатель степени правильного воспроизведения информационного содержания речи; узнаваемость голоса говорящего — возможность слушателей отождествлять звучание голоса, с конкретным лицом, известным слушателю ранее; 5) качество речи — параметр, характеризующий субъективную оценку звучания речи в испытуемой системе передачи речи; 6) интегральное качество — показатель, характеризующий общее впечатление слушателя от принимаемой речи.

Область применения

Системы автоматического распознавания речи нашли широкое применение в различных сферах жизни обычного человека. В качестве главного достоинства голосовых систем можно назвать дружественность к пользователю. Речевые команды позволяют пользователю осуществлять ввод без использования специальных устройств. Благодаря развитию технологий, связанных с распознаванием речи, стало возможным осуществлять голосовое управление, голосовой ввод текста и голосовой поиск, а также отдавать голосовые команды. В качестве яркого примера продукта, позволяющего осуществлять распознавание речи, можно назвать CMU Sphinx (или просто Sphinx), обладающего рядом программ и библиотек, которые делают процесс распознавания более точным.

Успешными примерами использования технологии распознавания речи в мобильных приложениях являются: ввод адреса голосом в Яндекс.Навигаторе (речевые технологии SpeechKit), голосовой поиск Google Now.

Системы автоматического распознавания речи История, классификация, методы, примеры

Рис.5. Эмблема Yandex SpeechKit.

Также технологии распознавания речи широко применяются в различных сферах бизнеса. Например, такие технологии применяются в управлении системой "Умный дом"; ноутбуки и десктопы позволяют осуществлять голосовой ввод в различных приложениях и играх; создаются специальные сервисы для людей с ограниченными возможностями, позволяющие осуществлять голосовой ввод; стало возможным управление бытовой техникой и электронными роботами; голосовое управление в салоне автомобиля — например, навигационной системой (DIVO и VoiceCommander). В телефонии была осуществлена автоматизация обработки входящих и исходящих звонков путем создания голосовых систем самообслуживание, позволяющая получить справочную информацию и консультирование, заказать услуги или товары, изменить параметры действующих услуг, проводить опросы, анкетирования, сбор информации, информирование и любые другие сценарии (IVR-системы (Interactive Voice Response), Freeform).

Пример

Как примера можно рассмотреть алгоритм распознавания речи по короткому словарю на основе MFCC [Источник 4]. В качестве базы обучения будем использовать множество файлов, каждый из которых представляет собой набор MFCC-векторов, полученных из фонограммы с записью того или иного слова. При этом файлы с записью одного и того же слова должны быть объединены в одну группу.

Системы автоматического распознавания речи История, классификация, методы, примеры

Рис.6. Распределение первых двух компонент MFCC-векторов всей базы обучения.

Алгоритм

Пункт 1. Находим супервектор средних для всей базы обучения при помощи алгоритма K-средних.

Системы автоматического распознавания речи История, классификация, методы, примеры

Рис.7. Пример работы алгоритма K-средних для K=10.

Пункт 2. Для каждого файла базы находим собственные средние значения по формуле: Mk=a∗Mk0+(1—a)∗Mk′,k=1:K{\displaystyle \ Mk = a * \mbox{Mk}_\mathrm{0} + (1 — a) * Mk', k = 1:K } где Mk0{\displaystyle \mbox{Mk}_\mathrm{0}} — среднее значение, найденное в пункте 1, Mk′{\displaystyle \ Mk'} — среднее значение, полученное в результате применения одной итерации алгоритма K-средних для MFCC-векторов файла с использованием в качестве начального значения Mk0{\displaystyle \mbox{Mk}_\mathrm{0}}, a=R/(R+Nk){\displaystyle \ a = R/(R + Nk) }, где R — коэффициент «чувствительности», Nk — число MFCC-векторов, соответствующие среднему значению Mk′{\displaystyle \ Mk'}. Найденные таким образом средние значения будем называть адаптированными средними значениями.

Системы автоматического распознавания речи История, классификация, методы, примеры

Рис.8. Пример адаптированных средних значений для файла.

Пункт 3. Имея теперь вместо исходных фонограмм адаптированные супервектора средних, проводим LDA для N классов (каждый класс соответствует одному слову). В результате мы должны получить матрицу, состоящую из векторов нового базиса, при проекции на который исходные адаптированные супервектора средних должны достаточно хорошо разделяться.

Системы автоматического распознавания речи История, классификация, методы, примеры

Рис.9. Пример для N=4.

Пункт 4. Проецируем все адаптированные супервектора средних на новый базис и находим средние значения и СКО (среднее квадратичное отклонение) проекций для каждого класса.

Пункт 5. Для определения принадлежности тестовой фонограммы тому или иному классу (т.е. распознавания), выполняем для нее пункты 2 и 4, далее находим расстояния полученной проекции до средних значений всех классов (можно дополнительно нормировать их на соответствующее СКО). Минимальное расстояние и будет соответствовать классу, к которому принадлежит тестовая фонограмма.

Реализация

Создание собственной системы распознавания слов состоит из следующих этапов:

  1. Запись фонограмм для обучения и тестирования
  2. Построение MFCC-векторов
  3. Обучение и тестирование системы

Результат экспериментов

В качестве эксперимента была создана система, которая умеет распознавать 14 записанных голосом слов. Для обучения системы каждое слово было записано 4-5 раз, а для тестирования — 7 раз. Итого база обучения содержит 63 файла, а база тестирования — 98. Использовались следующие параметры при обучении:

  • Количество средних значений: 10
  • Коэффициент «чувствительности» при адаптации: 20
  • Размерность проекции: 20
  • Использование нормализации на СКО: отсутствует

Результат тестирования на базе обучения показал уровень ошибки распознавания слов (WER) 1,6%, а на базе тестирования - 5,1%.

А как ты думаешь, при улучшении системы автоматического распознавания речи, будет лучше нам? Надеюсь, что теперь ты понял что такое системы автоматического распознавания речи, сарр и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Автоматическое распознавание речи

создано: 2014-08-25
обновлено: 2024-11-14
537



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей

Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Автоматическое распознавание речи

Термины: Автоматическое распознавание речи