Аффективные вычисления
Аффективные вычисления (англ. affective computing) — это область исследований и разработки систем и устройств, способных распознавать, интерпретировать, обрабатывать и моделировать человеческие аффекты. Является междисциплинарной областью, охватывающей информатику, психологию и когнитивные науки[1]. Основы современных аффективных вычислений были заложены благодаря работам Розалинд Пикард (англ. Rosalind Picard), в частности её статье 1995 года «Affective Computing»[2] и одноимённой книге 1997 года[3]. Одной из ключевых задач аффективных вычислений считается внедрение эмоционального интеллекта и моделирования эмпатии в вычислительные системы. Такие системы должны уметь интерпретировать эмоциональное состояние человека и адаптировать своё поведение в соответствии с ним. Современные исследования показывают, что аффективная обратная связь может не только интерпретировать, но и активно модулировать действия пользователя посредством эмоционально окрашенных сигналов[4].
Направления
Обнаружение эмоциональной информации обычно начинается с пассивных датчиков, фиксирующих физическое состояние или поведение пользователя. Собранные данные аналогичны тем сигналам, которые человек использует для определения эмоций других людей. Например, видеокамера может захватывать выражения лица, позу и жесты, а микрофон — голосовые интонации. Другие сенсоры непосредственно измеряют физиологические параметры: температуру кожи, гальваническое сопротивление и др[5].
Распознавание эмоциональной информации требует извлечения значимых закономерностей из собранных данных. Обычно используются методы машинного обучения, обрабатывающие различные модальности, такие как распознавание речи, обработка естественного языка, распознавание мимики. Цель большинства этих технологий — присвоить метку эмоционального состояния, сопоставимую с той, которую мог бы дать человек-наблюдатель. При этом такие метки не всегда напрямую соответствуют внутреннему чувству субъекта.
Одним из направлений аффективных вычислений является разработка устройств и программных агентов, обладающих врождёнными или эффективно имитируемыми эмоциональными способностями. На практике чаще всего реализуют симуляцию эмоций в системах диалога для повышения эффективности взаимодействия между человеком и машиной[6].
Один из основателей искусственного интеллекта Марвин Минский (англ. Marvin Minsky) связывал эмоции с более широкими проблемами машинного интеллекта и утверждал, что эмоция мало чем отличается от процессов мышления[7]. Появление виртуальных агентов (англ. virtual human) также связано с попытками наделения цифровых двойников эмоциональной составляющей, приближённой к человеческой реакции в той или иной ситуации, включая мимику и жесты[8].
В связи с этим термин «эмоциональный искусственный интеллект» (англ. emotional AI, англ. emotion AI) всё чаще используется для обозначения таких технологий.
Технологии
В психологии, когнитивных науках и нейронауках традиционно применяют два подхода к описанию восприятия и классификации эмоций человеком: континуальный (по шкалам, например, негативность-позитивность, спокойствие-возбуждение) и категориальный (по отдельным классам — счастье, грусть, злость, страх, удивление, отвращение). Соответствующие методы машинного обучения применяются для воспроизведения этих подходов: регрессия (для шкальных оценок) и классификация (для дискретных). Возможны и сочетания категорий (например, счастливо-удивлённое лицо)[9].
Изменения в работе вегетативной нервной системы могут влиять на речь, и аффективные технологии могут использовать эти изменения для распознавания эмоций. Например, при страхе, гневе или радости речь становится быстрой, громкой и более чёткой с широким диапазоном частот; при усталости или грусти — напротив, медленной, монотонной, невнятной[10].
Технологии обработки эмоциональной речи анализируют параметры голоса и просодические характеристики, такие как высота тона и скорость, с применением методов распознавания образов[11]. Достоверность оценки эмоционального состояния по речи достигает 70-80 %, что выше, чем у среднего человека (~60 %), но ниже, чем при использовании мультимодальных систем[12].
Для автоматического обнаружения аффекта по речи или тексту требуется создать достаточную по объёму база данных, база знаний или векторная модель[13], а также подобрать оптимальный классификатор.
Наиболее часто применяются: линейный дискриминантный анализ (LDC), k-ближайших соседей (k-NN), гауссовы смесевые модели (GMM), машины опорных векторов (SVM), искусственные нейронные сети (ANN), алгоритмы деревьев решений и скрытые марковские модели (HMM)[14].
Большинство современных систем распознавания эмоций по речи зависит от используемых данных (баз актёрских или естественных эмоциональных записей). «Актёрские» базы обычно отражают классические эмоции (гнев, страх, отвращение, удивление, радость, грусть, по теории Пола Экмана[15]) и дают хорошее качество сигнала для обучения. Природные (естественные) базы данных, например, FAU Aibo Emotion Corpus, создаются в условиях реального взаимодействия и позволяют моделировать настоящие сценарии взаимодействия человека и машины[16].
Для каждого класса эмоций могут использоваться сотни различных речевых признаков (дескрипторов), однако для эффективности критично выбрать только релевантные[14].[16] Примеры: форма акцентирования, средняя высота тона, скорость речи, частота ударных фраз, уровень звонкости, громкость, длительность пауз и т. д.
Определение и анализ выражения лица проводится при помощи таких методов, как оптический поток, скрытые марковские модели, искусственные нейронные сети и активные модели внешности. Для повышения точности применяется мультимодальное сочетание сигналов (например, мимика + просодика речи, мимика + жесты и пр.)[17].
Создание базы эмоций — сложная и трудоёмкая задача. Большинство открытых баз содержат «позированные» выражения, а базы спонтанных выражений требуют сложной организации эксперимента, ручной разметки и валидации экспертами. Существуют три вида баз: изображения пиков выражения, последовательности изменений выражения, видеоклипы с аннотацией. Популярные базы — CK+ и JAFFE.
Пауль Экман (англ. Paul Ekman) на основе кросс-культурных исследований выделил шесть базовых эмоций, универсальных для всех культур:[15][18]
Позднее он расширил список, добавив интерес, гордость, вину, возбуждение, удовольствие и др[19].
Facial Action Coding System, FACS, созданная П. Экманом и В. Фризеном в 1978 году, формально описывает физические проявления эмоций — так называемые «единицы действия» (AU, action units). Классификация по эмоциям и AU:
| Эмоция | Единицы действия |
|---|---|
| Счастье | 6+12 |
| Грусть | 1+4+15 |
| Удивление | 1+2+5B+26 |
| Страх | 1+2+4+5+20+26 |
| Гнев | 4+5+7+23 |
| Отвращение | 9+15+16 |
| Презрение | R12A+R14A |
Задачи распознавания аффекта по мимике включают: низкое качество моделирования динамики, «искусственность» позированных выражений, ограничение фронтальной съёмки, несовпадения между выражением и внутренним состоянием, отсутствие 1:1 соответствия между комбинациями AU и эмоциями, влияния контекста, сложности в очистке сигнала от шумов (осуществляется методами сглаживания, медианными фильтрами, или современными оптимизационными алгоритмами).
Распознавание жестов эффективно используется для идентификации эмоционального состояния, особенно в сочетании с анализом речи и лица. Жесты могут быть как простыми рефлекторными, так и осознанными. Применяются методы с использованием 3D-моделирования тела или «визуальные» (appearance-based) на основании видеопотока[20].
Для определения аффективного состояния пользователя используются физиологические параметры: пульс, гальваническая реакция, электромиография лица, изменения цвета кожи.
Фотоплетизмография позволяет оценить амплитуду и частоту сердечных сокращений по изменению отражения инфракрасного излучения на коже[21]. Минус метода — низкая устойчивость к движению, влияние температуры.
Электромиография лица фиксирует слабые электрические импульсы, генерируемые мышцами при сокращении[22]. Обычно анализируются мышцы: corrugator supercilii (хмурит брови — признак негативного аффекта) и zygomaticus major (улыбка).
Гальваническая кожная реакция (ГКР) — более современное название: электродермальная активность (ЭДА). Измеряется сопротивление/проводимость кожи, связанное с активацией потоотделения (ранний показатель возбуждения)[21].
Изменения кровотока и давления в подкожных капиллярах определяют видимые вариации цвета лица. Анализ динамики цвета (например, в пространстве oRGB) и выделение соответствующих областей позволяют лучше классифицировать эмоции[23].
Задача автоматического определения эстетической привлекательности изображений решается методами машинного обучения с использованием свёрточных признаков, извлечённых из больших наборов пользовательских оценок[24].
Возможные применения
Аффективные вычисления позволяют анализировать эмоции и состояние обучающихся по мимике, что можно использовать для индивидуализации учебных программ, повышения вовлечённости и корректировки дистанционного образования[25].
Использование аффективных сенсоров в автомобилях позволяет повысить безопасность, включая автоматическое предупреждение других участников движения при агрессивном или стрессовом состоянии водителя, а также адаптивную помощь[26].
Социальные роботы и ассистивные устройства активно внедряют технологии аффективного распознавания, чтобы лучше адаптировать помощь к эмоциональному состоянию пользователя, в том числе пожилых людей[27]. Широко исследуются аффективные технологии для пользователей с аутизмом и в сфере эмоциональной интернет-коммуникации[28].
Аффективные видеоигры могут использовать биологическую обратную связь (например, датчики на джойстике, измеряющие силу нажатия) для адаптации игрового процесса по эмоциям пользователя, а также для тренировок детей с аутизмом[29].
Интеграция аффективных вычислений в системы психомоторного обучения (авиатренажёры, медицина и пр.) способствует оптимизации и персонализации обучения[30].
Аффективные вычисления используются для анализа пользовательских реакций на продукт, оценку реакции на рекламу по видеозаписям, усреднённого анализа эмоций больших групп людей[31].
Когнитивистский и интеракционистский подходы
В области человеко-компьютерного взаимодействия существует критика «когнитивистской» (информационной) модели эмоций по Розалинд Пикард, противопоставляемой «интеракционистскому» или прагматическому подходу К. Бёнер, акцентирующему социальную природу эмоций[32].
Пикард ставит целью научить компьютеры «распознавать, выражать и (в некоторых случаях) обладать эмоциями»[3]. Интеракционистский подход ищет способы улучшить межличностную коммуникацию, не стремясь к жёсткому математическому моделированию эмоций[33].
Интеракционистский взгляд утверждает, что эмоция всегда «культурно основана, динамично проживается, в некоторой степени конструируется во взаимодействии» и является «социальным и культурным продуктом» человеческого общения[34].
См. также
Примечания
Литература
- Hudlicka, Eva (2003). “To feel or not to feel: The role of affect in human–computer interaction”. International Journal of Human–Computer Studies [англ.]. 59 (1—2): 1—32. DOI:10.1016/s1071-5819(03)00047-8.
- Scherer, Klaus R. A Blueprint for Affective Computing: A Sourcebook and Manual : [англ.] / Klaus R Scherer, Tanja Bänziger, Etienne B Roesch. — Oxford : Oxford University Press, 2010. — ISBN 978-0-19-956670-9.


