Распознавание по голосу

Распознавание по голосу (англ. speaker recognition) — разновидность биометрической аутентификации, при которой личность человека определяется на основе уникального набора характеристик его голоса. Эта технология относится к динамическим методам биометрии. Однако распознавание по голосу не является абсолютно надёжным методом идентификации — голос человека меняется в зависимости от возраста, эмоционального состояния, состояния здоровья, гормонального фона и ряда других факторов^[1]. С развитием звукозаписывающих и воспроизводящих технологий методы распознавания по голосу применяются с различной степенью успеха для защиты информации, охранных систем и контроля доступа, а также в криминалистике.

Исследования по распознаванию голоса ведутся с середины XX века. Первая подобная система была создана в начале 1950-х годов и предназначалась для идентификации цифр, произнесённых одним диктором. Примером такой системы стала «Audrey» от англ. Bell Laboratories, работавшая на принципе выделения формант в спектре мощности каждого речевого отрезка^[2]. В общих чертах система включала три основных элемента: анализаторы и квантователи, шаблоны и согласующие устройства, а также датчики — среди которых были газонаполненные трубки.

К концу 1950-х появились системы, распознающие гласные независимо от диктора^[3]. В 1970-х годах к развитию привели внедрение метода динамического программирования^[4] и метода линейного предсказания (англ. Linear Predictive Coding, LPC). В Bell Laboratories были созданы системы, использующие эти методы^[5]. В 1980-х годах началось применение скрытых марковских моделей (англ. Hidden Markov Models, HMM). Тогда вышли первые масштабные программы распознавания речи, такие как Kurzweil text-to-speech^[6]. Конец 1980-х ознаменовался использованием искусственных нейронных сетей (англ. Artificial Neural Network, ANN)^[7]. В 1987 году на рынке появилась кукла Worlds of Wonder’s Julie doll, способная реагировать на голос^[6]. В 1997 году компания Dragon Systems выпустила первую версию программы «NaturallySpeaking 1.0»^[8].

К основным источникам ошибок при распознавании голоса относят:

условия записи (уровень и тип шума, наличие реверберации);
эффект предъявления (длительность речи, психофизиологическое состояние говорящего — болезнь, эмоции, язык, акцент, громкость);
качество канала связи (помехи, искажения микрофона, особенности кодирования и передачи сигнала)^[9].

Распознавание пола выделяется как отдельная задача; при больших объёмах исходных данных ошибки практически исключены, а при анализе коротких звуков вероятность ошибки составляет 5,3 % для мужчин и 3,1 % для женщин^[10].

Проблема имитации голоса также изучалась: исследования France Telecom показали, что профессиональная имитация практически не влияет на ошибки идентификации — имитаторы лишь копируют внешние признаки речи, не затрагивая глубинные особенности голоса. Даже у близких родственников, включая близнецов, остаются различия в динамике управления^[10]. С развитием компьютерных средств возникла новая угроза — трансформация голоса, которая способна повысить вероятность ошибки до 50 %^[10].

Для оценки надёжности системы применяют два основных критерия: FRR (False Rejection Rate, вероятность ложного отказа, ошибка первого рода) и FAR (False Acceptance Rate, вероятность ложного допуска, ошибка второго рода). Кроме того, иногда используют параметр EER (Equal Error Rate) — точка пересечения значений FRR и FAR; чем надёжнее система, тем ниже EER^[11].

Значения ошибок идентификации для различных биометрических модальностей^[9]

Биометрический признак	Тест	Условия тестирования	FRR %	FAR %
Отпечатки пальцев	FVC 2006	Неоднородная популяция (включая работников физического труда и пожилых людей)	2,2	2,2
Лицо	MBE 2010	Полицейская база фотографий База фотографий с документов	4,0 0,3	0,1 0,1
Голос	NIST 2010	Текстонезависимое распознавание	3..4	1,0
Радужная оболочка	ICE 2006	Контролируемое освещение, широкий диапазон качества изображений	1,1…1,4	0,1

Распознавание по голосу применяется в двух основных режимах: идентификация — определение пользователя среди множества по голосу, и верификация — подтверждение, что голос принадлежит предъявителю определённого идентификатора^[10] Определение принадлежности голоса осуществляется попарным сравнением моделей речи, отражающих индивидуальные особенности диктора. Для качественной работы системы требуется сформировать обширную базу данных.^[10]

Хотя распознавание по голосу не даёт стопроцентной гарантии, оно доказало свою эффективность в таких сферах, как криминалистика и судебная экспертиза, разведка, антитеррористический мониторинг, обеспечение безопасности, банковское обслуживание и другие.^[10]

Весь процесс обработки речевого сигнала делится на этапы:

предобработка сигнала;
выделение признаков;
распознавание диктора.

Каждый этап представляет собой применение одного или ряда алгоритмов.^[12].

Основные особенности голоса определяются механикой колебаний голосовых складок, анатомией речевого тракта и системой управления артикуляцией. Также учитываются лексика и стиль речи^[10] Ключевые признаки диктора формируются с учётом источника, резонансных частот тракта, их затуханий и динамики артикуляции. К характеристикам источника относят среднюю частоту основного тона, его контур и флуктуации, форму импульса возбуждения. Спектральные признаки тракта описываются огибающей спектра, её наклоном, формантными частотами, спектром, кепстром. Также используются особенности ритма, длительность слов и пауз, уровень сигнала.^[13]. Для упрощения анализа вместо прямых формант часто применяются коэффициенты кепстра, вычисляемые по огибающей спектра или по передаточной функции речевого тракта (метод линейного предсказания). Используются также их первые и вторые разности^[10] Метод впервые описан в работах Дэвиса и Мермельштейна.^[14].

Кепстральный анализ

Наиболее популярный метод в задачах распознавания — кепстральное преобразование спектра речевого сигнала^[10] Алгоритм состоит в вычислении спектра мощности на промежутке 10–20 мс, применении обратного преобразования Фурье от логарифма спектра (кепстр) и вычислении коэффициентов: $c_{n}={\frac {1}{\Theta }}\int _{0}^{\Theta }{\mid S(j,\omega ,t)\mid }^{2}\exp ^{-jn\omega \Omega }d\omega$ , $\Omega =2{\frac {2\pi }{\Theta }},\Theta$ — верхняя частота спектра, ${\mid S(j,\omega ,t)\mid }^{2}$ — спектр мощности. Количество коэффициентов n находится в диапазоне 20–40. При применении гребёнки полосовых фильтров коэффициенты вычисляются как $c_{n}=\sum _{m=1}^{N}\log {Y(m)^{2}}\cos {{\frac {\pi n}{M}}(m-{\frac {1}{2}}))}$ , где Y(m) — сигнал на выходе m-го фильтра, $c_{n}$ — n-й коэффициент кепстра.

В задачах речевого анализа свойства слуха учитываются через нелинейную шкалу, например мел^[10]: $M(f)=1125\ln {(1+{\frac {f}{700}})}$ , где f — частота в Гц, M — частота в мелах. Используется также шкала барк: $B=13\operatorname {arctg{(0,00076f)}} +3,5\operatorname {arctg{\frac {f}{7500}}}$ . Кепстральные коэффициенты часто именуются MFCC (Mel Frequency Cepstral Coefficients). Обычно их число 10–30. Использование первых/вторых разностей увеличивает размерность пространства решений, но и эффективность.^[10]

Кепстр отражает огибающую спектра сигнала, связанную как с источником возбуждения, так и с особенностями тракта. Практика показала существенную зависимость узнаваемости от вида огибающей спектра.^[10]

Методы

Поскольку часто используются пространства кепстральных коэффициентов, их производных, ключевое значение приобретает построение решающих правил. Применяются аппроксимация плотности вероятности смесью нормальных распределений (GMM, англ. Gauss Mixture Models), метод опорных векторов (SVM, англ. Support Vector Machines), скрытые марковские модели (HMM), искусственные нейронные сети, модификации факторного анализа.^[10]

Модель GMM основывается на представлении плотности вероятности как взвешенной суммы нормальных распределений:

$p(x|\lambda )=\sum _{j=1}^{k}{\omega _{j}\phi (\chi ,\Theta _{j})}$ , где $\lambda$ — модель диктора, k — число компонент, $\omega _{j}$ — веса (сумма весов равна 1), $\phi (\chi ,\Theta _{j})$ — плотность многомерного нормального распределения ( $\chi ,\Theta _{j}$ ), $\mu _{j}$ — вектор математического ожидания, $R_{j}$ — ковариационная матрица. Практически часто используется диагональная ковариационная матрица. Для оценки параметров применяют EM-алгоритм с инициализацией через кластеризацию, например методом к-средних.^[15].

Переоценка производится по формулам:

Апостериорная вероятность (Estimation-step): $p(i|\chi _{t},\lambda )={\frac {\omega _{i}\phi (\chi _{t},\Theta _{i})}{\sum _{j=1}^{k}{\omega _{j}\phi (\chi _{t},\Theta _{j})}}}$
Новые параметры (Maximization-step): $\omega _{j}={\frac {\sum _{t=1}^{T}p(j|\chi _{t},\lambda )}{T}}$ ;

$\mu _{i}={\frac {\sum _{t=1}^{T}p(i|\chi _{t},\lambda )\chi _{t}}{\sum _{t=1}^{T}p(i|\chi _{t},\lambda )}}$ ; $R_{i}={\frac {\sum _{t=1}^{T}p(i|\chi _{t},\lambda )(\chi _{t}-\mu _{i})(\chi _{t}-\mu _{i})^{T}}{\sum _{t=1}^{T}p(i|\chi _{t},\lambda )}}$ .

GMM также рассматривается как развитие метода векторного квантования (метод центроидов), при этом в пространстве признаков формируются кластерные области^[10]

Метод опорных векторов (SVM) строит гиперплоскость, разделяющую два класса — параметры целевого диктора и фоновые параметры. Суть — нелинейное отображение исходного пространства в пространство признаков большей размерности; разделение выполняется с помощью гиперплоскости, полученной на базе опорных векторов. Повышение эффективности достигается выбором трансформации для каждого случая. SVM часто комбинируется с GMM или HMМ; в коротких по длительности фразах более эффективны фонемозависимые HMM.^[10]

По данным консалтинговой компании International Biometric Group из Нью-Йорка, самым популярным видом биометрии остаётся сканирование отпечатков пальцев (44 % рынка при общей выручке 127 млн долларов). Далее идут распознавание лица (14 %), устройства по форме ладони (13 %), по голосу (10 %) и по радужке глаза (8 %); верификация подписи — 2 %.^[16]. Основные производители — Nuance Communications, SpeechWorks, VeriVoice.

В феврале 2016 года газета The Telegraph сообщила, что клиенты британского банка HSBC смогут осуществлять доступ к счетам и операции посредством идентификации по голосу и отпечаткам пальцев; внедрение запланировано на лето того же года^[17].

Ю. Н. Матвеев. Технологии биометрической идентификации личности по голосу и другим модальностям. — ISSN 0236-3933. Вестник МГТУ им. Н. Э. Баумана. Сер. «Приборостроение». 2012.
В. Н. Сорокин, В. В. Вьюгин, А. А. Тананыкин. Распознавание личности по голосу: аналитический обзор. — ISSN 1819-5822. Информационные процессы, Том 12, № 1, стр. 1–30.
Тассов К. Л., Дятлов Р. А. Метод идентификации человека по голосу. Инженерный журнал: наука и инновации, 2013, вып. 6. URL: http://engjournal.ru/catalog/it/biometric/1103.html
Lamel L.F., Gauvain J.L. (2000). Speaker verification over the telephone. Journal Speech Communication — Speaker recognition and its commercial and forensic applications.
Kuwabara H., Sagisaka Y. (1995). Acoustic characteristics of speaker individuality: Control and Conversion. Speech Communication.
Davis S., Mermelstein P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Trans. Acoustics, Speech, Signal Process.

Computerworld Россия. Аутентификация по голосу и внешности (неопр.) (13 октября 2014). Дата обращения: 6 августа 2021.
What are biometrics? (неопр.) FindBiometrics. Дата обращения: 6 августа 2021.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Распознавание по голосу

История

Надёжность

Применение

Анализ

Кепстральный анализ

Методы

Популярность

Примечания

Литература

Ссылки

Категории