Как работает технология распознавания голоса

Недавние достижения в области речевых технологий привели к появлению новых инструментов, которые можно использовать для повышения производительности и гибкости распознавания голоса.

Существует несколько альтернативных методов при использовании методов идентификации личности: по отпечаткам пальцев или радужной оболочке глаза, но технология распознавания голоса обеспечивает гораздо большую гибкость и различные уровни распознавания. При голосовом вводе современная технология распознавания голоса обладает многими степенями свободы, такими как использование знаний / кодов, которые известны только пользователю, или диалектических / семантических особенностей, которые трудно подделать. Это направление необходимо также для создания роботов.

В этой статье предлагается обзор современного состояния в области технологии распознавания голоса, с особым акцентом на плюсы и минусы, а также на текущие направления исследований. Текущие направления исследований включают усовершенствованные системы классификации и использование информации высокого уровня с помощью вероятностных грамматик.

Распознавание голоса — это далеко не та технология, в которой уже изучены все возможности.

Биометрические признаки распознавания личности

Биометрическое распознавание предлагает многообещающий подход для приложений безопасности, обладающий некоторыми преимуществами по сравнению с классическими методами, которые зависят от того, что у вас есть (ключ, карта) или что вы знаете (пароль, PIN-код) — однако есть главный недостаток, поскольку оно не может быть заменено после взлома третьей стороной.  Вероятно, эти недостатки замедлили распространение использования биометрического распознавания. Для тех приложений, в которых присутствует человек-контролер (например, для пограничного контроля), это может быть незначительной проблемой, поскольку оператор может проверить, является ли представленный биометрический признак оригинальным или поддельным. Однако для удаленных приложений, таких как Интернет, должны быть предусмотрены какие-то механизмы обнаружения защиты от повторных атак.

К счастью, человеческая речь предлагает более богатый и широкий спектр возможностей по сравнению с другими биометрическими признаками, такими как отпечатки пальцев, радужная оболочка, геометрия кисти, лица и т.д.  Это связано с тем, что человеческую речь можно рассматривать как смесь физических и приобретенных черт. Мы можем рассматривать физические черты как те, которые присущи людям (радужная оболочка, лицо), в то время как приобретенные черты — это те, которые связаны с навыками, приобретенными в процессе жизни и окружающей среде (подпись, походка).

Например, ваша подпись отличается, если вы родились в западной или азиатской стране, и ваш акцент отличается, если вы выросли в России или Украине, и хотя вы можете говорить на одном и том же языке, вероятно, словарный запас может отличаться (т.е. относительная частота употребления количество общеупотребительных слов может варьироваться в зависимости от географического положения или уровня образования).

Методы обработки речи

Методы обработки речи основаны на речевых сигналах, обычно получаемых с помощью микрофона и вводимых в компьютер с использованием процедуры оцифровки. Он может быть использован для извлечения следующей информации из динамика:

  • есть ли кто-нибудь, кто говорит? (обнаружение речевой активности);
  • идентификация пола: каков его/её пол? (мужчина или женщина);
  • распознавание речи: какие слова произносятся? (транскрипция речи в текст);
  • аспекты, связанные с речью, имеющие отношение к биометрическим приложениям.

Распознавание говорящего

Распознавание говорящего может быть выполнено двумя способами:

Идентификация говорящего

Цель системы идентификации говорящего состоит в том, чтобы определить, является ли человек тем, за кого он себя выдает. Это подразумевает, что пользователь должен предоставить удостоверение личности, и система просто принимает или отклоняет пользователей в зависимости от успешной или неуспешной проверки. Иногда этот режим работы называется аутентификацией или обнаружением. Производительность системы можно оценить, используя коэффициент ложного принятия (когда принимается самозванец) и коэффициент ложного отклонения (когда говорящий неправильно отклоняется). Также известные в теории обнаружения как ложная тревога и промах, соответственно. Эта структура дает нам возможность провести различие между различимостью системы и предвзятостью принятия решений. Различимость присуща используемой системе классификации, а склонность к различению связана с предпочтениями /потребностями пользователя в отношении относительной важности каждой из двух возможных ошибок (промахи или ложные срабатывания), которые могут быть допущены при идентификации говорящего. Этот компромисс между обеими ошибками обычно устанавливается путем корректировки порога принятия решения.

Конечно, один из обоих показателей ошибок может быть более важным (приложение с высокой степенью безопасности по сравнению с теми, где мы не хотим раздражать пользователя высокой частотой отказов / пропусков).

Если системная кривая перемещается к началу координат, достигается меньшая частота ошибок (более высокая производительность).

В обоих случаях (идентификация и верификация) методы распознавания говорящего можно разделить на два основных вида:

Независимость от текста

Это общий случай, когда система не знает текст, произнесенный человеком. Этот режим работы обязателен для тех приложений, где пользователь не знает, что его / её оценивают в целях распознавания, например, в приложениях судебной экспертизы, или для упрощения использования сервиса, где идентификация устанавливается с целью улучшения диалога между человеком и машиной, как это делается в некоторых банковских системах. Это обеспечивает большую гибкость, но также увеличивает сложность задачи. При необходимости распознавание речи может обеспечить знание произносимого текста. В этом режиме можно косвенно использовать типичное совпадение слов говорящего, и, следовательно, оно также характеризует говорящего с помощью вероятностной грамматики. Этот режим используется для тех приложений, которые строго контролируют вводимые пользователем данные, или в приложениях, где диалоговое окно может направлять пользователя.

Одним из важнейших факторов для распознавания говорящего является наличие вариабельности канала от обучения к тестированию. То есть различное отношение сигнал/шум, тип микрофона, эволюция со временем и т.д. Для людей это не является серьезной проблемой из-за использования различных уровней информации. Однако это существенным образом влияет на автоматические системы. К счастью, сигналы более высокого уровня не так подвержены влиянию шума или несоответствия каналов. Некоторыми примерами высокоуровневой информации в речевых сигналах являются частота произнесения и паузы, высота тона и временные паттерны, идиосинкразическое (неприятное) использование слов/фраз, идиосинкразическое произношение и т.д. Рассматривая первые исторические системы распознавания говорящих, мы понимаем, что они были в основном основаны на физических признаках, извлеченных из спектральных характеристик речевых сигналов. До сих пор функции, полученные из речевого спектра, оказались наиболее эффективными в автоматических системах, поскольку спектр отражает геометрию системы, генерирующей сигнал.

Усвоенные черты, такие как семантика, дикция, произношение, идиосинкразия и т.д. (связанные с социально-экономическим статусом, образованием, местом рождения и т.д.) сложнее извлекать автоматически. Например, в случае просодии (интонация и ударение) можно было бы классифицировать определенное количество повторяющихся звуковысотных паттернов и вычислить вероятность совместного появления этих паттернов для каждого говорящего. Это может отражать диалектические и культурные особенности говорящего. С синтаксической точки зрения, этот же инструмент можно было бы использовать для моделирования различного сочетания слов у данного говорящего.

Интерес к объединению  как приобретенных, так и физических характеристик заключается в том, что система более надежна (т.е. увеличивает возможность разделения между говорящими), и в то же время она более гибкая, поскольку не создает искусственной ситуации для говорящего. С другой стороны, использование изученных признаков, таких как семантика или просодия, приводит к задержке принятия решения из-за необходимости получения достаточного количества речевого сигнала для вычисления статистики.

Признаки распознавания говорящего

Основные признаки и описание технологии распознавания голоса следующие

технология распознавания голоса

Спектральный признак

Анатомическую структуру голосового аппарата легко извлечь автоматическим способом. Фактически, разные говорящие будут иметь разные спектры (расположение и величину пиков) для одинаковых звуков. Современные алгоритмы распознавания основаны на статистических моделях кратковременных акустических измерений, предоставляемых средством извлечения признаков. Наиболее популярной моделью является модель гауссовой смеси (вероятностная модель). Извлечение признаков обычно вычисляется временными методами, такими как линейное прогнозирующее кодирование или частотными методами, такими как мелкочастотное  кодирование.

Свойством спектральных методов является то, что логарифмические шкалы (амплитудные или частотные), которые имитируют функциональные свойства человеческого уха, повышают скорость распознавания. Это связано с тем, что говорящий  воспроизводит сигналы для того, чтобы их можно было понять / распознать, поэтому анализ, адаптированный к тому, как работает человеческое ухо, дает более высокую производительность.

Просодические признаки

Просодическими признаками являются ударение, акценты, интонационные показатели или признаки дислексии. Самый простой способ оценить их — с помощью информации о высоте тона, энергии и продолжительности.

Энергия и высота тона могут использоваться аналогично краткосрочным характеристикам. Хотя эти функции сами по себе не дают таких хороших результатов, как спектральные характеристики, некоторого улучшения можно достичь, комбинируя оба вида функций. С другой стороны, существует больший потенциал при использовании долгосрочных характеристик. Например, люди, пытающиеся имитировать голос другого человека, обычно пытаются воспроизвести энергию и динамику высоты тона, а не мгновенные значения.

Таким образом, ясно, что у такого подхода есть потенциал. Произнося одно и то же предложение, разные говорящие будут воспроизводить разные паттерны, то есть длительность слога и профиль кривой высоты тона канала, чем спектральные характеристики. Просодические признаки могут использоваться на двух уровнях: на нижнем можно использовать прямые значения высоты тона, энергии или длительности, на более высоком уровне система может вычислять вероятности совместного появления определенных повторяющихся паттернов и проверять их на этапе распознавания.

Фонетические признаки

Известно, что одни и те же фонемы могут произноситься по-разному без изменения семантики высказывания. Эта вариативность в произношении данной фонемы может использоваться  путем распознавания каждого варианта каждой фонемы и последующего сравнения частоты совпадения фонем в высказывании. Это может отражать диалектные характеристики говорящего, которые могут включать географические и культурные особенности.

Идиолектный (синтетический)

Технология распознавания голоса может использовать полезную информацию о говорящем, используя последовательности распознанных слов. Они отражают способ использования языка данным носителем. Идея состоит в том, чтобы распознавать говорящих по их словоупотреблению. Хорошо известно, что некоторые люди используют несколько слов и злоупотребляют ими. Сильной стороной этого метода является то, что он учитывает не только использование лексики, специфичной для пользователя, но также контекст и кратковременную зависимость между словами, которую сложнее имитировать.

Диалогический

Когда у нас есть диалог с двумя или более говорящими, мы хотели бы разделить части, соответствующие каждому говорящему. Разговорные шаблоны полезны для определения того, когда в речевом сигнале произошла смена говорящего (сегментация), и для группировки речевых сегментов от одного и того же говорящего (кластеризация).

Интеграция различных уровней информации, таких как спектральный, фонологический, просодический или синтаксический, затруднена из-за неоднородности признаков. Существуют различные методы для объединения различной информации с надлежащим взвешиванием доказательств, и, по возможности, интеграция должна быть надежной в отношении отказа одной из функций.

Выводы по обзору технологии распознавания голоса

В этой статье рассмотрен обзор распознавания голоса в современном состоянии и многообещающих будущих направлений исследований. В последние годы усовершенствования в технологиях, связанных с автоматическим распознаванием речи, и доступность широкого спектра баз данных дали возможность внедрять высокоуровневые функции в системы распознавания речи.

Таким образом, можно использовать фонологические аспекты, специфичные для говорящего, или диалектические аспекты, которые могут моделировать регион / происхождение говорящего, а также его / её образовательный уровень. Кроме того, использование статистического грамматического моделирования может учитывать различное сочетание слов у каждого говорящего. Важным аспектом является тот факт, что эти новые возможности для улучшения систем распознавания говорящих должны быть интегрированы, чтобы использовать преимущества более высокого уровня информации, доступной в настоящее время.

Технология распознавания голоса  и своего рода объединение данных могут сделать практически невозможным имитацию говорящего на всех уровнях.