Устройство для генерации речи

Устройство для генерации речи — это электронная система, применяемая для дополнения или замены устной или письменной речи у людей с тяжёлыми нарушениями речи, позволяющая им общаться вербально^[1]. Устройства для генерации речи играют важную роль для людей с ограниченными возможностями устного взаимодействия, позволяя стать активными участниками коммуникации. Они особенно полезны пациентам с боковым амиотрофическим склерозом (БАС), а также всё чаще используются для детей с прогнозируемыми нарушениями речи^[2].

Существуют различные методы ввода и отображения для пользователей с разными двигательно-коммуникативными возможностями. Некоторые устройства содержат несколько страниц символов для большого числа сообщений, при этом на экране в определённый момент отображается лишь часть символов, и пользователь перемещается между страницами. Речевые устройства создают электронный голос на основе оцифрованных записей человеческой речи или с помощью синтеза речи, который, возможно, менее выразителен эмоционально, но позволяет формировать новые сообщения^[3].

Состав, организация и обновление словаря на устройстве зависит от потребностей пользователя и контекста, в котором устройство применяется. Разрабатываются методы для расширения словарного запаса и повышения скорости генерации речи; словарные единицы должны вызывать интерес, быть частоупотребимыми, охватывать широкий диапазон функций и быть прагматично полезными^[4].

Доступ к сообщениям на устройствах может осуществляться различными способами — напрямую, косвенно или с помощью специализированных средств ввода, выбор которых определяется умениями и возможностями пользователя^[1]. Скорость вывода сообщений обычно значительно ниже естественной речи, но стратегии ускорения способны увеличить этот показатель и повысить эффективность коммуникации^[5].

Первое известное устройство для генерации речи появилось в середине 1970-х годов. Быстрый прогресс в области аппаратного обеспечения и программного обеспечения позволил интегрировать функции речевых коммуникаторов, например, в смартфоны. Среди известных пользователей таких устройств — Стивен Хокинг, Роджер Эберт, Тони Прадфут, Пит Фрэйтис (основатель Ice Bucket Challenge).

Устройства для генерации речи могут быть как специализированными (разработанными исключительно под задачи АДК), так и универсальными, например, компьютерами с дополнительным программным обеспечением для выполнения функций речевого коммуникатора^[6]^[7].

Устройства для генерации речи берут начало от ранних электронных средств коммуникации. Первым подобным устройством был контроллер пишущей машинки типа sip-and-puff под названием Patient Operated Selector Mechanism (POSM или POSSUM), спроектированный Реджем Мэйлингом в Великобритании в 1960 году^[8]^[9]. POSSUM осуществлял последовательный перебор набора символов на подсвечиваемом дисплее^[8]. В 1970 году учёные Делфтского университета (Нидерланды) создали пишущую машинку с управлением световым пятном (Lightspot-Operated Typewriter, LOT), использовавшую движения головы для наведения светового пятна на матрицу символов, каждый из которых был снабжён фотоэлементом. Несмотря на недостаточный коммерческий успех, пользователи высоко оценили LOT^[10].

В 1966 году студент-техник Барри Ромич и инженер Эд Прентке основали компанию Prentke Romich Company^[11]. В 1969 году они произвели первый коммуникатор на основе списанной телетайп-машины.

В 1979 году Марк Дамке разработал программное обеспечение для программы голосового коммуникационного помощника с использованием аналогового синтезатора речи Computalker CT-1 и микрокомпьютера^[12]^[13]. Это ПО использовало фонемы для генерации речи, помогая людям с нарушениями коммуникации в создании слов и предложений^[14]. Работа Дамке способствовала развитию ассистивных технологий для людей с инвалидностью, в частности, он разработал систему управления словарём ("Vocabulary Management System") для студента с церебральным параличом Билла Раша^[15]. Эта система была представлена в журнале LIFE в 1980 году и применила возможности раннего синтеза речи для улучшения коммуникации^[16]. Вклад Дамке оказал значительное влияние на развитие технологий АДК.

В 1970-х — начале 1980-х годов появилось несколько компаний-производителей речевых устройств. Тоби Черчилль основал компанию Toby Churchill Ltd в 1973 году после потери речи вследствие энцефалита^[17]. В США компания Dynavox (первоначально Sentient Systems Technology) возникла из студенческого проекта в университете Карнеги — Меллон для поддержки молодого человека с ДЦП в 1982 году^[18].

С 1980-х годов усовершенствования технологий привели к значительному росту числа, разнообразия и функциональности доступных устройств, их уменьшению в размерах и снижению стоимости. Были внедрены альтернативные методы доступа (например, слежение за движением глаз), а также интерфейс последовательного сканирования. Стали доступны как оцифрованный, так и синтетический речевой вывод^[9].

В 1990-е годы первые коммерчески доступные динамические средства с сенсорным экраном были разработаны благодаря активным работам, в том числе финансируемым Европейским сообществом. Было создано ПО для создания коммуникативных таблиц на компьютере^[9]^[19]. Высокотехнологичные устройства продолжают уменьшаться в размерах и массе^[19], а их функциональность расширяется: возможен доступ через системы отслеживания глаз, работа в качестве компьютера, интернет-доступ, управление бытовыми устройствами (ТВ, радио, телефоном)^[20].

Стивен Хокинг стал ассоциироваться с уникальным звучанием своей речевой системы. Он утратил возможность говорить из-за развития БАС и проведённой трахеотомии^[21]. За последние 20 лет устройства для генерации речи приобрели популярность среди детей с такими особенностями, как аутизм, синдром Дауна, задержки речевого развития после операций.

С начала 2000-х годов специалисты отмечают эффективность использования речевых устройств и для детей, подвергающихся временным или стойким нарушениям речи, например, после операций на головном мозге; в частности, оцифрованные устройства применяются во время реабилитации.

Существуют различные способы доступа: прямой, косвенный, с помощью специальных устройств. Прямой доступ предполагает физический контакт с системой (клавиатура, сенсорный экран). Косвенный — манипуляции, например, джойстиком, головной мышью, оптическим указателем, инфракрасным указателем или сканирующим переключателем^[1].

Выбор метода зависит от возможностей пользователя. При прямом доступе задействуют кисти, указки, модифицированные манипуляторы или отслеживание глаз^[22]; при косвенном – последовательное сканирование по символам^[7]^[23]. Система может настраиваться индивидуально под двигательные и когнитивные возможности пользователя^[24].

Искусственная и альтернативная коммуникация медленнее обычной речи^[5]; пользователи обычно формируют 8–10 слов в минуту^[25]. Стратегии ускорения увеличивают скорость до 12–15 слов в минуту^[25].

В устройствах доступны различные заготовленные выражения (приветствия, вопросительные и волеизъявительные фразы). Некоторые устройства содержат несколько страниц символов, что требует навигации между ними^[26]. Устройства могут использовать как статический, так и динамически меняющийся экран^[27].

Для увеличения скорости используются кодирование и предикция^[5].

Кодирование позволяет вводить слово/фразу одной-двумя активациями устройства. Иконическое кодирование сочетает цепочки пиктограмм, буквенно-числовое — наборы букв/цифр («HH» — «Привет, как дела?»)^[28].

Предикция сокращает число нажатий за счёт предсказания вводимых слов/фраз на основании частотности, сочетаний, прошлых выборов пользователя, грамматической релевантности^[28]. Однако, при работе с интерфейсом сканирования статическая раскладка клавиатуры часто эффективнее предиктивной сетки^[29].

Пример подхода — программа Dasher, использующая языковые модели и арифметическое кодирование для масштабирования вариантов на экране^[30]^[31].

Максимальная скорость зависит и от организации системы: программная система TALK обеспечивает до 60 слов в минуту^[32].

Фиксированные устройства

Фиксированные (или «статические») устройства отображают заранее размещённые символы^[33]. Они проще в освоении, но ограничены малым числом символов и сообщений, часто копируют структуру низкотехнологичных средств (бумажных коммуникативных таблиц)^[27]. Использование фиксированных дисплеев в современных условиях сокращается.

Динамические устройства

Динамические устройства оснащены сенсорным экраном, генерируют электронные пиктограммы и позволяют переключаться между наборами символов с помощью ссылок на страницы. «Домашний» экран может содержать символы по разным темам, а нажатие открывает набор сообщений по выбранной теме^[27]. Это позволяет использовать объёмный словарь, видеть формируемую фразу и, зачастую, — использовать дополнительные коммуникационные каналы (SMS, эл. почта, звонки)^[34]. Описаны случаи, когда электронная коммуникация способствовала росту социальной активности детей^[35].

Говорящие клавиатуры

Недорогие системы могут состоять из клавиатуры с динамиком и не иметь экрана. Введённый текст напрямую преобразуется в речь, что удобно для телефонных разговоров без необходимости визуального контроля.

Речевой вывод устройства может быть оцифрованным (воспроизведение записанных фраз) и/или синтетическим (текст в речь)^[36]^[37]. Современные устройства часто сочетают оба типа^[37], однако есть аппараты только с одним видом вывода.

Оцифрованная речь

Слова, фразы или целые сообщения записываются на устройство для последующего воспроизведения^[1] (т. н. voice banking^[38]). Преимущества: натуральная просодия, персонализация (того же возраста, пола, что пользователь), добавление эмоций (смех, свист); это важно для сохранения привычного звучания голоса для пользователя и семьи. Недостаток — невозможность создавать новые фразы: устройство ограничено заранее записанными сообщениями^[3]^[39]; ёмкость памяти также ограничена^[3]^[39].

Синтезированная речь

Устройства с синтетической речью преобразуют введённый текст согласно фонетическим правилам языка^[1]^[37]; пользователь может формировать любые, включая новые, слова и фразы^[37]. Распространение синтеза обусловлено появлением ПО для компьютеров и смартфонов: мобильные приложения для АДК (Spoken, Avaz) позволяют использовать функцию без специального оборудования. Такие варианты часто дешевле специализированных устройств.

Синтетические устройства поддерживают различные системы формирования сообщений (буквы, слова, фразы, графические символы)^[1]^[39]; практически неограниченное хранилище сообщений^[3]. Движки доступны на многих языках^[37]^[39], параметры (скорость, тембр, пол, ударения, паузы, исключения в произношении) можно настраивать индивидуально^[39].

Набор выбора — все сообщения, символы и коды, доступные на устройстве^[40]. Состав и организация определяются способностями, интересами и возрастом пользователя. Как правило, словарь включает как известные пользователю слова, так и те, которым ему предстоит научиться; на устройстве могут быть предустановленные страницы и страницы, созданные самим пользователем или его окружением.

Выбор начального содержимого

По Бойкельману и Миренде, источником начального словаря выступают разные лица: семья, друзья, педагоги, специалисты по уходу. Чтобы словарь был релевантным разным социальным ситуациям, требуется опрос сразу нескольких информантов; например, родители и специалисты не всегда включают в словарь жаргонизмы^[41].

Исследования частотности слов и использования языковых единиц у обычных носителей и пользователей АДК позволяют сформировать «ядро» словаря, но не всегда применимы в специфических темах («фриндж-лексика» — профессиональные или уникальные интересы пользователя). Её собирают путём интервьюирования широкого круга окружения.

Другие исследователи (Масселуайт и Сен-Луи) рекомендуют отбирать те слова и фразы, которые вызывают высокий интерес, часто используются, многозначны и имеют прагматическую ценность^[4].

Автоматическое обновление содержимого

Необходимость постоянного пополнения словаря требуют ручного ввода новых выражений (имена, новости и пр.), тогда как коммерческих решений автоматического добавления не существует^[25]. Предлагаются исследовательские подходы, например, пополнение на основе анализа коммуникационных журналов пользователя^[42], извлечение данных из интернета (Webcrawler Project)^[43] или адаптация содержимого по событиям с помощью персонального поведения, в том числе с учётом геопозиции^[44].

Этические вопросы

Многие современные устройства снабжены средствами ведения журналов и анализа деятельности, что вызывает опасения по поводу приватности данных^[45]. Разработчики и исследователи подчёркивают необходимость учёта интересов пользователя при организации сбора и хранения личных данных^[46]. Обсуждаются аспекты прав удаления автоматического содержимого, правового режима хранения/удаления журналов^[47].

Программирование динамических речевых устройств требует участия специалистов по альтернативной коммуникации, а персонализация связана с длительным процессом настройки (с учётом возраста, особенностей, интересов, предпочтений пациентов). Кроме того, речевые устройства редко финансируются страховыми компаниями, что ведёт к ограниченности ресурсов и кадров. Значительный вклад в развитие программ для поддержки пациентов вносит доктор Джон Костелло (Детская больница Бостона).

Aetna Inc. Clinical Policy Bulletin: Speech Generating Devices (англ.). aetna.com (2010). Дата обращения: 4 июня 2024.
Ashraf, S. и др. Capturing phrases for ICU-Talk, a communication aid for intubated intensive care patients. In: Proceedings of the fifth international ACM conference on Assistive technologies - Assets '02. ACM, 2002. С. 213.
Beukelman, D.; Mirenda, P. Augmentative & alternative communication: supporting children & adults with complex communication needs. 3-е изд. Paul H. Brookes Pub. Co., 2005. ISBN 978-1-55766-684-0.
Black, R.; Reddington, J.; Reiter, E.; Tintarev, N.; Waller, A. Using NLG and sensors to support personal narrative for children with complex communication needs. In: Proceedings of the NAACL HLT 2010 Workshop on Speech and Language Processing for Assistive Technologies (SLPAT '10). Association for Computational Linguistics, 2010.
Blischak, D. M.; Lombardino, L. J.; Dyson, A. T. Use of speech-generating devices: In support of natural speech. Augmentative and Alternative Communication, 19, 2003.
Dempster, M.; Alm, N.; Reiter, E. Automatic generation of conversational utterances and narrative for augmentative and alternative communication: a prototype system. In: SLPAT '10, 2010.
Dominowska, E.; Roy, D.; Patel, R. An adaptive context-sensitive communication aid. Proceedings of the CSUN International Conference on Technology and Persons with Disabilities, Northridge, CA, 2002.
Hanlon, M. Stephen Hawking chooses a new voice. Gizmag, 4 июня 2004. Stephen Hawking chooses a new voice (англ.) (4 июня 2004). Дата обращения: 4 июня 2024.
Hourcade, J. и др. A History of Augmentative and Alternative Communication for Individuals with Severe and Profound Disabilities. Focus on Autism and Other Developmental Disabilities, 19(4), 2004.
Mathy, D.; Yorkston, K.; Guttman, S. Augmentative and Alternative Communication Disorders for Adults with Acquired Neurologic Disorders. In: Augmentative Communication for Individuals with Amyotrophic Lateral Sclerosis. P.H. Brookes Pub., 2000.
Musselwhite, C. R.; St. Louis, K. W. Communication programming for persons with severe handicaps: vocal and augmentative strategies. Pro-Ed, 1988. ISBN 978-0-89079-388-6.
Sundqvist, A.; Rönnberg, J. A Qualitative Analysis of Email Interactions of Children who use Augmentative and Alternative Communication. Augmentative and Alternative Communication, 26(4), 2010.
Todman, J. Rate and quality of conversations using a text-storage AAC system: Single-case training study. Augmentative and Alternative Communication, 16(3), 2000.
Venkatagiri, H. S. Techniques for enhancing communication productivity in AAC: A review of research. American Journal of Speech-Language Pathology, 4, 36–45, 1995.
Ward, D. J.; Blackwell, A. F.; MacKay, D. J. C. Dasher—a data entry interface using continuous gestures and language models. Proceedings of the 13th annual ACM symposium on User interface software and technology (UIST '00), 2000, c. 129.

Устройства для генерации речи на Викискладе

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

Устройство для генерации речи

Описание

История

Методы доступа

Формирование сообщений

Фиксированные и динамические устройства

Фиксированные устройства

Динамические устройства

Говорящие клавиатуры

Речевой вывод

Оцифрованная речь

Синтезированная речь

Набор сообщений и словарь

Выбор начального содержимого

Автоматическое обновление содержимого

Этические вопросы

Проблемы и ограничения

Примечания

Литература

Ссылки