Устройство для генерации речи

Устройство для генерации речи — это электронная система, применяемая для дополнения или замены устной или письменной речи у людей с тяжёлыми нарушениями речи, позволяющая им общаться вербально[1]. Устройства для генерации речи играют важную роль для людей с ограниченными возможностями устного взаимодействия, позволяя стать активными участниками коммуникации. Они особенно полезны пациентам с боковым амиотрофическим склерозом (БАС), а также всё чаще используются для детей с прогнозируемыми нарушениями речи[2].

Описание

Существуют различные методы ввода и отображения для пользователей с разными двигательно-коммуникативными возможностями. Некоторые устройства содержат несколько страниц символов для большого числа сообщений, при этом на экране в определённый момент отображается лишь часть символов, и пользователь перемещается между страницами. Речевые устройства создают электронный голос на основе оцифрованных записей человеческой речи или с помощью синтеза речи, который, возможно, менее выразителен эмоционально, но позволяет формировать новые сообщения[3].

Состав, организация и обновление словаря на устройстве зависит от потребностей пользователя и контекста, в котором устройство применяется. Разрабатываются методы для расширения словарного запаса и повышения скорости генерации речи; словарные единицы должны вызывать интерес, быть частоупотребимыми, охватывать широкий диапазон функций и быть прагматично полезными[4].

Доступ к сообщениям на устройствах может осуществляться различными способами — напрямую, косвенно или с помощью специализированных средств ввода, выбор которых определяется умениями и возможностями пользователя[1]. Скорость вывода сообщений обычно значительно ниже естественной речи, но стратегии ускорения способны увеличить этот показатель и повысить эффективность коммуникации[5].

Первое известное устройство для генерации речи появилось в середине 1970-х годов. Быстрый прогресс в области аппаратного обеспечения и программного обеспечения позволил интегрировать функции речевых коммуникаторов, например, в смартфоны. Среди известных пользователей таких устройств — Стивен Хокинг, Роджер Эберт, Тони Прадфут, Пит Фрэйтис (основатель Ice Bucket Challenge).

Устройства для генерации речи могут быть как специализированными (разработанными исключительно под задачи АДК), так и универсальными, например, компьютерами с дополнительным программным обеспечением для выполнения функций речевого коммуникатора[6][7].

История

Устройства для генерации речи берут начало от ранних электронных средств коммуникации. Первым подобным устройством был контроллер пишущей машинки типа sip-and-puff под названием Patient Operated Selector Mechanism (POSM или POSSUM), спроектированный Реджем Мэйлингом в Великобритании в 1960 году[8][9]. POSSUM осуществлял последовательный перебор набора символов на подсвечиваемом дисплее[8]. В 1970 году учёные Делфтского университета (Нидерланды) создали пишущую машинку с управлением световым пятном (Lightspot-Operated Typewriter, LOT), использовавшую движения головы для наведения светового пятна на матрицу символов, каждый из которых был снабжён фотоэлементом. Несмотря на недостаточный коммерческий успех, пользователи высоко оценили LOT[10].

В 1966 году студент-техник Барри Ромич и инженер Эд Прентке основали компанию Prentke Romich Company[11]. В 1969 году они произвели первый коммуникатор на основе списанной телетайп-машины.

В 1979 году Марк Дамке разработал программное обеспечение для программы голосового коммуникационного помощника с использованием аналогового синтезатора речи Computalker CT-1 и микрокомпьютера[12][13]. Это ПО использовало фонемы для генерации речи, помогая людям с нарушениями коммуникации в создании слов и предложений[14]. Работа Дамке способствовала развитию ассистивных технологий для людей с инвалидностью, в частности, он разработал систему управления словарём ("Vocabulary Management System") для студента с церебральным параличом Билла Раша[15]. Эта система была представлена в журнале LIFE в 1980 году и применила возможности раннего синтеза речи для улучшения коммуникации[16]. Вклад Дамке оказал значительное влияние на развитие технологий АДК.

В 1970-х — начале 1980-х годов появилось несколько компаний-производителей речевых устройств. Тоби Черчилль основал компанию Toby Churchill Ltd в 1973 году после потери речи вследствие энцефалита[17]. В США компания Dynavox (первоначально Sentient Systems Technology) возникла из студенческого проекта в университете Карнеги — Меллон для поддержки молодого человека с ДЦП в 1982 году[18].

С 1980-х годов усовершенствования технологий привели к значительному росту числа, разнообразия и функциональности доступных устройств, их уменьшению в размерах и снижению стоимости. Были внедрены альтернативные методы доступа (например, слежение за движением глаз), а также интерфейс последовательного сканирования. Стали доступны как оцифрованный, так и синтетический речевой вывод[9].

В 1990-е годы первые коммерчески доступные динамические средства с сенсорным экраном были разработаны благодаря активным работам, в том числе финансируемым Европейским сообществом. Было создано ПО для создания коммуникативных таблиц на компьютере[9][19]. Высокотехнологичные устройства продолжают уменьшаться в размерах и массе[19], а их функциональность расширяется: возможен доступ через системы отслеживания глаз, работа в качестве компьютера, интернет-доступ, управление бытовыми устройствами (ТВ, радио, телефоном)[20].

Стивен Хокинг стал ассоциироваться с уникальным звучанием своей речевой системы. Он утратил возможность говорить из-за развития БАС и проведённой трахеотомии[21]. За последние 20 лет устройства для генерации речи приобрели популярность среди детей с такими особенностями, как аутизм, синдром Дауна, задержки речевого развития после операций.

С начала 2000-х годов специалисты отмечают эффективность использования речевых устройств и для детей, подвергающихся временным или стойким нарушениям речи, например, после операций на головном мозге; в частности, оцифрованные устройства применяются во время реабилитации.

Методы доступа

Существуют различные способы доступа: прямой, косвенный, с помощью специальных устройств. Прямой доступ предполагает физический контакт с системой (клавиатура, сенсорный экран). Косвенный — манипуляции, например, джойстиком, головной мышью, оптическим указателем, инфракрасным указателем или сканирующим переключателем[1].

Выбор метода зависит от возможностей пользователя. При прямом доступе задействуют кисти, указки, модифицированные манипуляторы или отслеживание глаз[22]; при косвенном – последовательное сканирование по символам[7][23]. Система может настраиваться индивидуально под двигательные и когнитивные возможности пользователя[24].

Формирование сообщений

Искусственная и альтернативная коммуникация медленнее обычной речи[5]; пользователи обычно формируют 8–10 слов в минуту[25]. Стратегии ускорения увеличивают скорость до 12–15 слов в минуту[25].

В устройствах доступны различные заготовленные выражения (приветствия, вопросительные и волеизъявительные фразы). Некоторые устройства содержат несколько страниц символов, что требует навигации между ними[26]. Устройства могут использовать как статический, так и динамически меняющийся экран[27].

Для увеличения скорости используются кодирование и предикция[5].

Кодирование позволяет вводить слово/фразу одной-двумя активациями устройства. Иконическое кодирование сочетает цепочки пиктограмм, буквенно-числовое — наборы букв/цифр («HH» — «Привет, как дела?»)[28].

Предикция сокращает число нажатий за счёт предсказания вводимых слов/фраз на основании частотности, сочетаний, прошлых выборов пользователя, грамматической релевантности[28]. Однако, при работе с интерфейсом сканирования статическая раскладка клавиатуры часто эффективнее предиктивной сетки[29].

Пример подхода — программа Dasher, использующая языковые модели и арифметическое кодирование для масштабирования вариантов на экране[30][31].

Максимальная скорость зависит и от организации системы: программная система TALK обеспечивает до 60 слов в минуту[32].

Фиксированные и динамические устройства

Фиксированные устройства

Фиксированные (или «статические») устройства отображают заранее размещённые символы[33]. Они проще в освоении, но ограничены малым числом символов и сообщений, часто копируют структуру низкотехнологичных средств (бумажных коммуникативных таблиц)[27]. Использование фиксированных дисплеев в современных условиях сокращается.

Динамические устройства

Динамические устройства оснащены сенсорным экраном, генерируют электронные пиктограммы и позволяют переключаться между наборами символов с помощью ссылок на страницы. «Домашний» экран может содержать символы по разным темам, а нажатие открывает набор сообщений по выбранной теме[27]. Это позволяет использовать объёмный словарь, видеть формируемую фразу и, зачастую, — использовать дополнительные коммуникационные каналы (SMS, эл. почта, звонки)[34]. Описаны случаи, когда электронная коммуникация способствовала росту социальной активности детей[35].

Говорящие клавиатуры

Недорогие системы могут состоять из клавиатуры с динамиком и не иметь экрана. Введённый текст напрямую преобразуется в речь, что удобно для телефонных разговоров без необходимости визуального контроля.

Речевой вывод

Речевой вывод устройства может быть оцифрованным (воспроизведение записанных фраз) и/или синтетическим (текст в речь)[36][37]. Современные устройства часто сочетают оба типа[37], однако есть аппараты только с одним видом вывода.

Оцифрованная речь

Слова, фразы или целые сообщения записываются на устройство для последующего воспроизведения[1] (т. н. voice banking[38]). Преимущества: натуральная просодия, персонализация (того же возраста, пола, что пользователь), добавление эмоций (смех, свист); это важно для сохранения привычного звучания голоса для пользователя и семьи. Недостаток — невозможность создавать новые фразы: устройство ограничено заранее записанными сообщениями[3][39]; ёмкость памяти также ограничена[3][39].

Синтезированная речь

Устройства с синтетической речью преобразуют введённый текст согласно фонетическим правилам языка[1][37]; пользователь может формировать любые, включая новые, слова и фразы[37]. Распространение синтеза обусловлено появлением ПО для компьютеров и смартфонов: мобильные приложения для АДК (Spoken, Avaz) позволяют использовать функцию без специального оборудования. Такие варианты часто дешевле специализированных устройств.

Синтетические устройства поддерживают различные системы формирования сообщений (буквы, слова, фразы, графические символы)[1][39]; практически неограниченное хранилище сообщений[3]. Движки доступны на многих языках[37][39], параметры (скорость, тембр, пол, ударения, паузы, исключения в произношении) можно настраивать индивидуально[39].

Набор сообщений и словарь

Набор выбора — все сообщения, символы и коды, доступные на устройстве[40]. Состав и организация определяются способностями, интересами и возрастом пользователя. Как правило, словарь включает как известные пользователю слова, так и те, которым ему предстоит научиться; на устройстве могут быть предустановленные страницы и страницы, созданные самим пользователем или его окружением.

Выбор начального содержимого

По Бойкельману и Миренде, источником начального словаря выступают разные лица: семья, друзья, педагоги, специалисты по уходу. Чтобы словарь был релевантным разным социальным ситуациям, требуется опрос сразу нескольких информантов; например, родители и специалисты не всегда включают в словарь жаргонизмы[41].

Исследования частотности слов и использования языковых единиц у обычных носителей и пользователей АДК позволяют сформировать «ядро» словаря, но не всегда применимы в специфических темах («фриндж-лексика» — профессиональные или уникальные интересы пользователя). Её собирают путём интервьюирования широкого круга окружения.

Другие исследователи (Масселуайт и Сен-Луи) рекомендуют отбирать те слова и фразы, которые вызывают высокий интерес, часто используются, многозначны и имеют прагматическую ценность[4].

Автоматическое обновление содержимого

Необходимость постоянного пополнения словаря требуют ручного ввода новых выражений (имена, новости и пр.), тогда как коммерческих решений автоматического добавления не существует[25]. Предлагаются исследовательские подходы, например, пополнение на основе анализа коммуникационных журналов пользователя[42], извлечение данных из интернета (Webcrawler Project)[43] или адаптация содержимого по событиям с помощью персонального поведения, в том числе с учётом геопозиции[44].

Этические вопросы

Многие современные устройства снабжены средствами ведения журналов и анализа деятельности, что вызывает опасения по поводу приватности данных[45]. Разработчики и исследователи подчёркивают необходимость учёта интересов пользователя при организации сбора и хранения личных данных[46]. Обсуждаются аспекты прав удаления автоматического содержимого, правового режима хранения/удаления журналов[47].

Проблемы и ограничения

Программирование динамических речевых устройств требует участия специалистов по альтернативной коммуникации, а персонализация связана с длительным процессом настройки (с учётом возраста, особенностей, интересов, предпочтений пациентов). Кроме того, речевые устройства редко финансируются страховыми компаниями, что ведёт к ограниченности ресурсов и кадров. Значительный вклад в развитие программ для поддержки пациентов вносит доктор Джон Костелло (Детская больница Бостона).

Примечания

Литература

  • Aetna Inc. Clinical Policy Bulletin: Speech Generating Devices (англ.). aetna.com (2010). Дата обращения: 4 июня 2024.
  • Ashraf, S. и др. Capturing phrases for ICU-Talk, a communication aid for intubated intensive care patients. In: Proceedings of the fifth international ACM conference on Assistive technologies - Assets '02. ACM, 2002. С. 213.
  • Beukelman, D.; Mirenda, P. Augmentative & alternative communication: supporting children & adults with complex communication needs. 3-е изд. Paul H. Brookes Pub. Co., 2005. ISBN 978-1-55766-684-0.
  • Black, R.; Reddington, J.; Reiter, E.; Tintarev, N.; Waller, A. Using NLG and sensors to support personal narrative for children with complex communication needs. In: Proceedings of the NAACL HLT 2010 Workshop on Speech and Language Processing for Assistive Technologies (SLPAT '10). Association for Computational Linguistics, 2010.
  • Blischak, D. M.; Lombardino, L. J.; Dyson, A. T. Use of speech-generating devices: In support of natural speech. Augmentative and Alternative Communication, 19, 2003.
  • Dempster, M.; Alm, N.; Reiter, E. Automatic generation of conversational utterances and narrative for augmentative and alternative communication: a prototype system. In: SLPAT '10, 2010.
  • Dominowska, E.; Roy, D.; Patel, R. An adaptive context-sensitive communication aid. Proceedings of the CSUN International Conference on Technology and Persons with Disabilities, Northridge, CA, 2002.
  • Hanlon, M. Stephen Hawking chooses a new voice. Gizmag, 4 июня 2004. Stephen Hawking chooses a new voice (англ.) (4 июня 2004). Дата обращения: 4 июня 2024.
  • Hourcade, J. и др. A History of Augmentative and Alternative Communication for Individuals with Severe and Profound Disabilities. Focus on Autism and Other Developmental Disabilities, 19(4), 2004.
  • Mathy, D.; Yorkston, K.; Guttman, S. Augmentative and Alternative Communication Disorders for Adults with Acquired Neurologic Disorders. In: Augmentative Communication for Individuals with Amyotrophic Lateral Sclerosis. P.H. Brookes Pub., 2000.
  • Musselwhite, C. R.; St. Louis, K. W. Communication programming for persons with severe handicaps: vocal and augmentative strategies. Pro-Ed, 1988. ISBN 978-0-89079-388-6.
  • Sundqvist, A.; Rönnberg, J. A Qualitative Analysis of Email Interactions of Children who use Augmentative and Alternative Communication. Augmentative and Alternative Communication, 26(4), 2010.
  • Todman, J. Rate and quality of conversations using a text-storage AAC system: Single-case training study. Augmentative and Alternative Communication, 16(3), 2000.
  • Venkatagiri, H. S. Techniques for enhancing communication productivity in AAC: A review of research. American Journal of Speech-Language Pathology, 4, 36–45, 1995.
  • Ward, D. J.; Blackwell, A. F.; MacKay, D. J. C. Dasher—a data entry interface using continuous gestures and language models. Proceedings of the 13th annual ACM symposium on User interface software and technology (UIST '00), 2000, c. 129.