Распознавание речи
Распознавание речи — направление компьютерной лингвистики, занимающееся методами и технологиями перевода устной речи в текст или другие интерпретируемые формы[1].
Применениями распознавания речи являются голосовой пользовательский интерфейс, при котором пользователь общается с устройством голосом, а система «слушает» и обрабатывает аудиосигнал. Распространённые голосовые приложения включают интерпретацию команд при вызовах и маршрутизации звонков, автоматизации дома, управлении авионикой, то есть прямой голосовой ввод. Среди задач повышения производительности — поиск по аудиозаписям, создание расшифровок (транскрипций) и диктовка.
Технологии распознавания речи также применяются для анализа характеристик говорящего, например, с целью определения родного языка посредством алгоритмов оценки произношения[2]..
История
Технологии распознавания речи формировались десятилетиями, и их развитие было ускорено с появлением глубокого обучения и массовым использованием больших данных. Прогресс отражается в росте научных публикаций[3] и росте внедряемости систем[4].
Ключевые вехи развития — увеличение размера словарей, повышение точности для незнакомых говорящих, а также скорость обработки.
- 1952 — исследователи Bell Labs Стивен Балашек[5], Р. Биддалф и К. Х. Дэвис создали Audrey для распознавания цифр от одного диктора. Система анализировала форманты в спектре мощности каждой реплики[6].
- 1960 — Гуннар Фант предложил и опубликовал модель источника-фильтра для производства речи.
- 1962 — «Shoebox» компании IBM (на 16 слов) был представлен на Всемирной выставке[7].
- 1966 — предложена линейная предиктивная кодировка, метод сжатия речевых сигналов (Фумитада Итакура, Нагоя; Сюдзо Сайто, Ниппон Телеграф энд Телефон)[8].
- 1969 — финансирование в Bell Labs было прекращено после критики главного инженера Джона Р. Пирса[9].
Радж Редди был первым, кто начал исследования непрерывного распознавания речи (студент Стэнфорда, 1960-е гг.). Предыдущие системы требовали пауз между словами.
В этот же период советские учёные разработали алгоритм динамическое программирование времени и реализовали распознаватель с 200-словным словарём[10].
- 1971 — проект DARPA (Speech Understanding Research), задача — минимум 1000 слов в словаре. Участвовали BBN, IBM, Carnegie Mellon, Stanford Research Institute[11].
- 1976 — первая конференция ICASSP.
В 1970-х Леонард Баум и другие заложили основы скрытых марковских моделей (HMM), а с 1980-х HMM стали стандартом для распознавания речи[12]. К середине 1980-х группа Фредерика Йелинека (IBM) реализовала САПР для текста (Tangora, 20 тысяч слов)[13].
- 1982 — компания Dragon Systems (James и Janet Baker).
- 1984 — ноутбук Apricot Portable с поддержкой распознавания до 4096 слов[14].
- 1987 — система от Kurzweil Applied Intelligence.
- 1990 — Dragon Dictate (первый массовый продукт для диктовки).
В начале 1990-х системы достигли уровня, позволяющего работать со словарём больше среднего человеческого запаса слов. В эти годы появились Sphinx-II (CMU), системы Apple и Microsoft, рыночные продукты Nuance, Siri и др.
В 2000-х DARPA курировало программы EARS (2002) и GALE (2005). В 2007 году Google запустила сервис GOOG-411. В это же время методы глубокого обучения радикально снизили ошибки распознавания речи[15].
К началу 2010-х произошёл прорыв в создании «спикер-независимых» систем для непрерывной речи. В 2017 году Microsoft достигла точности, сопоставимой с ручной транскрипцией профессионалами[16].
Модели, методы и алгоритмы
В основе большинства современных систем лежат акустическая модель и языковая модель, обычно реализуемые через скрытые марковские модели (HMM), искусственные нейронные сети и методы глубокого обучения.
Скрытые марковские модели (HMM) — статистические модели для представления цепей звуковых признаков речи, позволяющие учитывать вероятности переходов между состояниями (например, фонемами или словами). Модель обучается автоматически по большим массивам размеченных данных. На каждом шаге анализируются векторные спектральные признаки (цепстральные коэффициенты).
Для повышения точности используют: контекстную зависимость фонем, нормализацию цепстральных признаков, нормализацию длины речевого тракта, адаптацию (VTLN, MLLR), дельта- и дельта-дельта коэффициенты, дискриминативное обучение (MMI, MCE, MPE).
DTW — метод выравнивания последовательностей, использовавшийся для распознавания речи до появления HMM. Позволял сопоставлять «растянутые» или «сжатые» по времени шаблоны произнесения.
Нейросети используются для классификации фонем[17], изолированных слов, а также для многозадачной эволюционной оптимизации распознавания[18], аудиовизуального распознавания и адаптации к говорящему. С 2010-х преобладают глубокие нейросети, LSTM, трансформеры. Ключевой идеей глубокого обучения стало отказ от ручной генерации признаков — сетевые архитектуры автоматически извлекают сложные паттерны из аудиоданных
С 2014 года стремительно развиваются сквозные (end-to-end) архитектуры. Первая такая модель — CTC, позднее появились архитектуры на основе внимания (attention), позволяющие обучать систему сразу «с нуля», без разделения на отдельные фазы по обучению фонетики, акустики, языка[19].
Применения
- Голосовой пользовательский интерфейс — управление устройствами голосом (в т.ч. автомобили, умные дома, авиация).
- Оценка произношения — автоматическая проверка правильности произношения в образовательных и речевотерапевтических системах.
- Радиология, медицина — создание и обработка диктовок для электронной медицинской документации.
- Военная техника — управление авионикой, радиосвязью, автопилотом через голос в самолётах, вертолётах и диспетчерских системах.
- Для людей с ограничениями — создание субтитров, навигация по интерфейсу для слабовидящих и маломобильных пользователей, поддержка альтернативного текстового ввода.
- Телефония — автоматические контакт-центры и IVR.
- Автоматическое субтитрование, эмоциональный анализ речи, робототехника, безопасность, транскрипция, виртуальный ассистент.
Производительность
Точность работы систем распознавания речи оценивается метриками WER (word error rate), временем задержки, а также успешностью выполнения команд.
- Размер и сложность словаря;
- Спикер-зависимость/независимость системы;
- Тип речи — изолированные слова, дискретная (с паузами), сплошная непрерывная речь;
- Жанр: речь по подготовленному/спонтанному тексту;
- Зашумлённость, помехи, условия записи;
- Огрехи произношения, диалекты, акценты.
Формула WER:
где — число замен, — удалений, — вставок, — число слов в эталоне.
Распознавание речи может использоваться для атак — например, команда «Алекса» с ТВ-ролика может активировать устройства в чужих помещениях. Также возможны атаки через ультразвук, имитирующий команды, и внедрение незаметных человеку искажений в аудиопоток[20].
Программное обеспечение
- CMU Sphinx (набор инструментов);
- HTK и сопутствующая документация;
- Kaldi;
- Common Voice[21] и производные (Coqui STT);
- Gboard (на Android);
- Распознавание речи в Microsoft Windows[22];
- Массово доступные коммерческие облачные API.
Примечания
- ↑ What Is Speech Recognition? | IBM (англ.). www.ibm.com (28 сентября 2021). Дата обращения: 28 августа 2025.
- ↑ P. Nguyen. Automatic classification of speaker characteristics // International Conference on Communications and Electronics 2010. — 2010. — P. 147–152. — ISBN 978-1-4244-7055-6. — doi:10.1109/ICCE.2010.5670700.
- ↑ Alharbi, Sadeen; Alrazgan, Muna; Alrashed, Alanoud; Alnomasi, Turkiayh; Almojel, Raghad; Alharbi, Rimah; Alharbi, Saja; Alturki, Sahar; Alshehri, Fatimah; Almojil, Maha (2021). “Automatic Speech Recognition: Systematic Literature Review”. IEEE Access. 9: 131858—131876. DOI:10.1109/ACCESS.2021.3112535. ISSN 2169-3536.
- ↑ Li, Suo. Overview and Analysis of Speech Recognition // 2022 IEEE International Conference on Advances in Electrical Engineering and Computer Applications (AEECA) / Suo Li, Jinchi You, Xin Zhang. — август 2022. — P. 391–395. — ISBN 978-1-6654-8090-1. — doi:10.1109/AEECA55500.2022.9919050.
- ↑ Obituaries: Stephen Balashek, The Star-Ledger (22 июля 2012). Архивировано 4 апреля 2019. Дата обращения: 9 сентября 2024.
- ↑ Juang, B. H.; Rabiner, Lawrence R. Automatic speech recognition–a brief history of the technology development 6. Дата обращения: 17 января 2015. Архивировано 17 августа 2014 года.
- ↑ Melanie Pinola (2 ноября 2011). “Speech Recognition Through the Decades: How We Ended Up With Siri”. PC World. Архивировано из оригинала 3 ноября 2018. Дата обращения 22 октября 2018. Используется устаревший параметр
|url-status=(справка) - ↑ Gray, Robert M. (2010). “A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol” (PDF). Found. Trends Signal Process. 3 (4): 203—303. DOI:10.1561/2000000036. ISSN 1932-8346. Архивировано из оригинала (PDF) 9 октября 2022. Дата обращения 9 сентября 2024. Используется устаревший параметр
|url-status=(справка) - ↑ Pierce, John R. (1969). “Whither speech recognition?”. Journal of the Acoustical Society of America. 46 (48): 1049—1051. DOI:10.1121/1.1911801.
- ↑ Benesty, Jacob. Springer Handbook of Speech Processing / Jacob Benesty, M. M. Sondhi, Yiteng Huang. — Springer Science & Business Media, 2008. — ISBN 978-3-540-49125-5.
- ↑ Blechman, R. O.; Blechman, Nicholas (23 июня 2008). “Hello, Hal”. The New Yorker. Архивировано из оригинала 20 января 2015. Дата обращения 17 января 2015.
- ↑ First-Hand:The Hidden Markov Model – Engineering and Technology History Wiki. ethw.org (12 января 2015). Дата обращения: 1 мая 2018. Архивировано 3 апреля 2018 года.
- ↑ Pioneering Speech Recognition (7 марта 2012). Дата обращения: 18 января 2015. Архивировано 19 февраля 2015 года.
- ↑ ACT/Apricot - Apricot history. actapricot.org. Дата обращения: 2 февраля 2016. Архивировано 21 декабря 2016 года.
- ↑ Markoff, John. Scientists See Promise in Deep-Learning Programs, New York Times (23 ноября 2012). Архивировано 30 ноября 2012. Дата обращения: 20 января 2015.
- ↑ Microsoft researchers achieve new conversational speech recognition milestone. Microsoft (21 августа 2017). Дата обращения: 9 сентября 2024. Архивировано 9 сентября 2024 года.
- ↑ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). “Phoneme recognition using time-delay neural networks”. IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328—339. DOI:10.1109/29.21701. S2CID 9563026.
- ↑ Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). “Optimisation of phonetic aware speech recognition through multi-objective evolutionary algorithms” (PDF). Expert Systems with Applications. 153. DOI:10.1016/j.eswa.2020.113402. ISSN 0957-4174. S2CID 216472225. Архивировано из оригинала (PDF) 9 сентября 2024. Дата обращения 9 сентября 2024. Используется устаревший параметр
|url-status=(справка) - ↑ Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). “Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition” (PDF). ICASSP. Архивировано из оригинала (PDF) 9 сентября 2024. Дата обращения 9 сентября 2024. Используется устаревший параметр
|url-status=(справка) - ↑ Listen Up: Your AI Assistant Goes Crazy For NPR Too, NPR (6 марта 2016). Архивировано 23 июля 2017.
- ↑ Common Voice by Mozilla. voice.mozilla.org. Дата обращения: 9 ноября 2019. Архивировано 27 февраля 2020 года.
- ↑ Use voice recognition in Windows. Архивировано 9 апреля 2025 года.
Литература
- Fundamentals of Speech Recognition (Лоуренс Рабинер, 1993)
- Statistical Methods for Speech Recognition (Фредерик Йелинек)
- Spoken Language Processing (Сюэдонг Хуанг и др., 2001)
- Computer Speech (Манфред Шредер, 2004)
- Speech Processing: A Dynamic and Optimization-Oriented Approach (Ли Денг и Дуг О'Шонесси, 2003)
- Speech and Language Processing (Джурафски и Мартин, 2008)
- The Voice in the Machine (Роберто Пьерачини, 2012)
- Automatic Speech Recognition: A Deep Learning Approach (D. Yu, L. Deng, 2014)


