Аффективные вычисления
Аффективные вычисления (англ. affective computing) — это область исследований и разработки систем и устройств, способных распознавать, интерпретировать, обрабатывать и моделировать человеческие аффекты. Является междисциплинарной областью, охватывающей информатику, психологию и когнитивные науки[1]. Основы современных аффективных вычислений были заложены благодаря работам Розалинд Пикард (англ. Rosalind Picard), в частности её статье 1995 года «Affective Computing»[2] и одноимённой книге 1997 года[3]. Одной из ключевых задач аффективных вычислений считается внедрение эмоционального интеллекта и моделирования эмпатии в вычислительные системы. Такие системы должны уметь интерпретировать эмоциональное состояние человека и адаптировать своё поведение в соответствии с ним. Современные исследования показывают, что аффективная обратная связь может не только интерпретировать, но и активно модулировать действия пользователя посредством эмоционально окрашенных сигналов[4].
Направления
Обнаружение эмоциональной информации обычно начинается с пассивных датчиков, фиксирующих физическое состояние или поведение пользователя. Собранные данные аналогичны тем сигналам, которые человек использует для определения эмоций других людей. Например, видеокамера может захватывать выражения лица, позу и жесты, а микрофон — голосовые интонации. Другие сенсоры непосредственно измеряют физиологические параметры: температуру кожи, гальваническое сопротивление и др[5].
Распознавание эмоциональной информации требует извлечения значимых закономерностей из собранных данных. Обычно используются методы машинного обучения, обрабатывающие различные модальности, такие как распознавание речи, обработка естественного языка, распознавание мимики. Цель большинства этих технологий — присвоить метку эмоционального состояния, сопоставимую с той, которую мог бы дать человек-наблюдатель. При этом такие метки не всегда напрямую соответствуют внутреннему чувству субъекта.
Одним из направлений аффективных вычислений является разработка устройств и программных агентов, обладающих врождёнными или эффективно имитируемыми эмоциональными способностями. На практике чаще всего реализуют симуляцию эмоций в системах диалога для повышения эффективности взаимодействия между человеком и машиной[6].
Один из основателей искусственного интеллекта Марвин Минский (англ. Marvin Minsky) связывал эмоции с более широкими проблемами машинного интеллекта и утверждал, что эмоция мало чем отличается от процессов мышления[7]. Появление виртуальных агентов (англ. virtual human) также связано с попытками наделения цифровых двойников эмоциональной составляющей, приближённой к человеческой реакции в той или иной ситуации, включая мимику и жесты[8].
В связи с этим термин «эмоциональный искусственный интеллект» (англ. emotional AI, англ. emotion AI) всё чаще используется для обозначения таких технологий.
Технологии
В психологии, когнитивных науках и нейронауках традиционно применяют два подхода к описанию восприятия и классификации эмоций человеком: континуальный (по шкалам, например, негативность-позитивность, спокойствие-возбуждение) и категориальный (по отдельным классам — счастье, грусть, злость, страх, удивление, отвращение). Соответствующие методы машинного обучения применяются для воспроизведения этих подходов: регрессия (для шкальных оценок) и классификация (для дискретных). Возможны и сочетания категорий (например, счастливо-удивлённое лицо)[9].
Изменения в работе вегетативной нервной системы могут влиять на речь, и аффективные технологии могут использовать эти изменения для распознавания эмоций. Например, при страхе, гневе или радости речь становится быстрой, громкой и более чёткой с широким диапазоном частот; при усталости или грусти — напротив, медленной, монотонной, невнятной[10].
Технологии обработки эмоциональной речи анализируют параметры голоса и просодические характеристики, такие как высота тона и скорость, с применением методов распознавания образов[11]. Достоверность оценки эмоционального состояния по речи достигает 70-80 %, что выше, чем у среднего человека (~60 %), но ниже, чем при использовании мультимодальных систем[12].
Для автоматического обнаружения аффекта по речи или тексту требуется создать достаточную по объёму база данных, база знаний или векторная модель[13], а также подобрать оптимальный классификатор.
Наиболее часто применяются: линейный дискриминантный анализ (LDC), k-ближайших соседей (k-NN), гауссовы смесевые модели (GMM), машины опорных векторов (SVM), искусственные нейронные сети (ANN), алгоритмы деревьев решений и скрытые марковские модели (HMM)[14].
Большинство современных систем распознавания эмоций по речи зависит от используемых данных (баз актёрских или естественных эмоциональных записей). «Актёрские» базы обычно отражают классические эмоции (гнев, страх, отвращение, удивление, радость, грусть, по теории Пола Экмана[15]) и дают хорошее качество сигнала для обучения. Природные (естественные) базы данных, например, FAU Aibo Emotion Corpus, создаются в условиях реального взаимодействия и позволяют моделировать настоящие сценарии взаимодействия человека и машины[16].
Для каждого класса эмоций могут использоваться сотни различных речевых признаков (дескрипторов), однако для эффективности критично выбрать только релевантные[14].[16] Примеры: форма акцентирования, средняя высота тона, скорость речи, частота ударных фраз, уровень звонкости, громкость, длительность пауз и т. д.
Определение и анализ выражения лица проводится при помощи таких методов, как оптический поток, скрытые марковские модели, искусственные нейронные сети и активные модели внешности. Для повышения точности применяется мультимодальное сочетание сигналов (например, мимика + просодика речи, мимика + жесты и пр.)[17].
Создание базы эмоций — сложная и трудоёмкая задача. Большинство открытых баз содержат «позированные» выражения, а базы спонтанных выражений требуют сложной организации эксперимента, ручной разметки и валидации экспертами. Существуют три вида баз: изображения пиков выражения, последовательности изменений выражения, видеоклипы с аннотацией. Популярные базы — CK+ и JAFFE.
Пауль Экман (англ. Paul Ekman) на основе кросс-культурных исследований выделил шесть базовых эмоций, универсальных для всех культур:[15][18]
Позднее он расширил список, добавив интерес, гордость, вину, возбуждение, удовольствие и др[19].
Facial Action Coding System, FACS, созданная П. Экманом и В. Фризеном в 1978 году, формально описывает физические проявления эмоций — так называемые «единицы действия» (AU, action units). Классификация по эмоциям и AU:
| Эмоция | Единицы действия |
|---|---|
| Счастье | 6+12 |
| Грусть | 1+4+15 |
| Удивление | 1+2+5B+26 |
| Страх | 1+2+4+5+20+26 |
| Гнев | 4+5+7+23 |
| Отвращение | 9+15+16 |
| Презрение | R12A+R14A |
Задачи распознавания аффекта по мимике включают: низкое качество моделирования динамики, «искусственность» позированных выражений, ограничение фронтальной съёмки, несовпадения между выражением и внутренним состоянием, отсутствие 1:1 соответствия между комбинациями AU и эмоциями, влияния контекста, сложности в очистке сигнала от шумов (осуществляется методами сглаживания, медианными фильтрами, или современными оптимизационными алгоритмами).
Распознавание жестов эффективно используется для идентификации эмоционального состояния, особенно в сочетании с анализом речи и лица. Жесты могут быть как простыми рефлекторными, так и осознанными. Применяются методы с использованием 3D-моделирования тела или «визуальные» (appearance-based) на основании видеопотока[20].
Для определения аффективного состояния пользователя используются физиологические параметры: пульс, гальваническая реакция, электромиография лица, изменения цвета кожи.
Фотоплетизмография позволяет оценить амплитуду и частоту сердечных сокращений по изменению отражения инфракрасного излучения на коже[21]. Минус метода — низкая устойчивость к движению, влияние температуры.
Электромиография лица фиксирует слабые электрические импульсы, генерируемые мышцами при сокращении[22]. Обычно анализируются мышцы: corrugator supercilii (хмурит брови — признак негативного аффекта) и zygomaticus major (улыбка).
Гальваническая кожная реакция (ГКР) — более современное название: электродермальная активность (ЭДА). Измеряется сопротивление/проводимость кожи, связанное с активацией потоотделения (ранний показатель возбуждения)[21].
Изменения кровотока и давления в подкожных капиллярах определяют видимые вариации цвета лица. Анализ динамики цвета (например, в пространстве oRGB) и выделение соответствующих областей позволяют лучше классифицировать эмоции[23].
Задача автоматического определения эстетической привлекательности изображений решается методами машинного обучения с использованием свёрточных признаков, извлечённых из больших наборов пользовательских оценок[24].
Возможные применения
Аффективные вычисления позволяют анализировать эмоции и состояние обучающихся по мимике, что можно использовать для индивидуализации учебных программ, повышения вовлечённости и корректировки дистанционного образования[25].
Использование аффективных сенсоров в автомобилях позволяет повысить безопасность, включая автоматическое предупреждение других участников движения при агрессивном или стрессовом состоянии водителя, а также адаптивную помощь[26].
Социальные роботы и ассистивные устройства активно внедряют технологии аффективного распознавания, чтобы лучше адаптировать помощь к эмоциональному состоянию пользователя, в том числе пожилых людей[27]. Широко исследуются аффективные технологии для пользователей с аутизмом и в сфере эмоциональной интернет-коммуникации[28].
Аффективные видеоигры могут использовать биологическую обратную связь (например, датчики на джойстике, измеряющие силу нажатия) для адаптации игрового процесса по эмоциям пользователя, а также для тренировок детей с аутизмом[29].
Интеграция аффективных вычислений в системы психомоторного обучения (авиатренажёры, медицина и пр.) способствует оптимизации и персонализации обучения[30].
Аффективные вычисления используются для анализа пользовательских реакций на продукт, оценку реакции на рекламу по видеозаписям, усреднённого анализа эмоций больших групп людей[31].
Когнитивистский и интеракционистский подходы
В области человеко-компьютерного взаимодействия существует критика «когнитивистской» (информационной) модели эмоций по Розалинд Пикард, противопоставляемой «интеракционистскому» или прагматическому подходу К. Бёнер, акцентирующему социальную природу эмоций[32].
Пикард ставит целью научить компьютеры «распознавать, выражать и (в некоторых случаях) обладать эмоциями»[3]. Интеракционистский подход ищет способы улучшить межличностную коммуникацию, не стремясь к жёсткому математическому моделированию эмоций[33].
Интеракционистский взгляд утверждает, что эмоция всегда «культурно основана, динамично проживается, в некоторой степени конструируется во взаимодействии» и является «социальным и культурным продуктом» человеческого общения[34].
См. также
Примечания
- ↑ Tao, Jianhua; Tan, Tieniu (2005). “Affective Computing: A Review”. Affective Computing and Intelligent Interaction [англ.]. Springer. 3784: 981—995. DOI:10.1007/11573548. Дата обращения 2024-06-01.
|access-date=требует|url=(справка) - ↑ Affective Computing (англ.). MIT (1995). Дата обращения: 1 июня 2024. Архивировано 3 июня 2025 года.
- ↑ 1 2 Picard, Rosalind. Affective Computing : [англ.]. — Cambridge, MA : MIT Press, 1997. — P. 1. — ISBN 978-0262661157.
- ↑ Hampton, W. H.; Hildebrand, C. (2025). “Haptic Rewards: How Mobile Vibrations Shape Reward Response and Consumer Choice”. Journal of Consumer Research [англ.]. DOI:10.1093/jcr/ucaf025. Дата обращения 2024-06-01.
|access-date=требует|url=(справка) - ↑ Garay, Nestor; Cearreta, Idoia; López, Juan Miguel; Fajardo, Inmaculada (Апрель 2006). “Assistive Technology and Affective Mediation” (PDF). Human Technology [англ.]. 2 (1): 55—83. DOI:10.17011/ht/urn.2006159. Архивировано из оригинала (PDF) 28 мая 2008. Дата обращения 2024-06-01.
- ↑ Heise, David. Agent Culture: Human-Agent Interaction in a Multicultural World : [англ.] / Sabine Payr. — Lawrence Erlbaum Associates, 2004. — P. 127–142.
- ↑ Restak, Richard. Mind Over Matter (англ.) (17 декабря 2006). Архивировано 23 декабря 2024 года. Дата обращения: 1 июня 2024.
- ↑ Loveys, Kate; Sagar, Mark; Broadbent, Elizabeth (22 июля 2020). “The Effect of Multimodal Emotional Expression on Responses to a Digital Human during a Self-Disclosure Conversation: a Computational Analysis of User Language”. Journal of Medical Systems [англ.]. 44 (9): 143. DOI:10.1007/s10916-020-01624-4. ISSN 0148-5598. PMID 32700060. S2CID 220717084.
- ↑ Martinez, Aleix; Du, Shichuan (2012). “A model of the perception of facial expressions of emotion by humans: Research overview and perspectives” (PDF). The Journal of Machine Learning Research [англ.]. 13 (1): 1589—1608. Дата обращения 2024-06-01.
- ↑ Breazeal, Cynthia; Aryananda, Lijin (2002). “Recognition of Affective Communicative Intent in Robot-Directed Speech” (PDF). Autonomous Robots [англ.]. 12 (1): 83—104. DOI:10.1023/a:1013215010749.
- ↑ Dellaert, F., Polizin, t., Waibel, A., Recognizing Emotion in Speech, In Proc. Of ICSLP 1996, Philadelphia, PA, pp. 1970—1973.
- ↑ Neiberg, D; Elenius, K; Laskowski, K (2006). “Emotion recognition in spontaneous speech using GMMs” (PDF). Proceedings of Interspeech [англ.]. DOI:10.21437/Interspeech.2006-277. S2CID 5790745. Архивировано из оригинала (PDF) 16 июля 2020. Дата обращения 2024-06-01. Используется устаревший параметр
|url-status=(справка) - ↑ Charles Osgood. Cross-Cultural Universals of Affective Meaning : [англ.] / Charles Osgood, William May, Murray Miron. — Univ. of Illinois Press, 1975. — ISBN 978-94-007-5069-2.
- ↑ 1 2 Scherer, Klaus R. A Blueprint for Affective Computing: A Sourcebook and Manual : [англ.] / Klaus R Scherer, Tanja Bänziger, Etienne B Roesch. — Oxford : Oxford University Press, 2010. — P. 241. — ISBN 978-0-19-956670-9.
- ↑ 1 2 Ekman, P. & Friesen, W. V (1969). The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica, 1, 49-98.
- ↑ 1 2 Steidl, Stefan FAU Aibo Emotion Corpus (англ.). Pattern Recognition Lab (5 марта 2011). Дата обращения: 1 июня 2024. Архивировано 25 апреля 2012 года.
- ↑ Caridakis, G.; Malatesta, L.; Kessous, L.; Amir, N.; Raouzaiou, A.; Karpouzis, K. (2–4 ноября 2006). Modeling naturalistic affective states via facial and vocal expressions recognition. International Conference on Multimodal Interfaces (ICMI'06) [англ.]. Banff, Alberta, Canada.
- ↑ Ekman, Paul (1972). Cole, J., ed. Universals and Cultural Differences in Facial Expression of Emotion. Nebraska Symposium on Motivation. Lincoln, Nebraska: University of Nebraska Press. pp. 207—283.
- ↑ Ekman, Paul. Handbook of Cognition and Emotion : [англ.]. — John Wiley & Sons, 1999. — P. 45–60.
- ↑ Pavlovic, Vladimir I.; Sharma, Rajeev; Huang, Thomas S. (1997). “Visual Interpretation of Hand Gestures for Human–Computer Interaction: A Review” (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence [англ.]. 19 (7): 677—695. DOI:10.1109/34.598226. S2CID 7185733.
- ↑ 1 2 Picard, Rosalind (1998). Affective Computing. MIT Press.
- ↑ Larsen JT, Norris CJ, Cacioppo JT. Effects of positive and negative affect on electromyographic activity over zygomaticus major and corrugator supercilii. (сентябрь 2003).
- ↑ Benitez-Quiroz, Carlos F.; Srinivasan, Ramprakash; Martinez, Aleix M. (19 марта 2018). “Facial color is an efficient mechanism to visually transmit emotion”. Proceedings of the National Academy of Sciences [англ.]. 115 (14): 3581—3586. DOI:10.1073/pnas.1716084115. PMC 5889636. PMID 29555780.
- ↑ Datta, Ritendra; Joshi, Dhiraj; Li, Jia; Wang, James Z. (2006). “Studying Aesthetics in Photographic Images Using a Computational Approach”. Lecture Notes in Computer Science [англ.]. 3953: 288—301.
- ↑ Wu, Chih-Hung; Huang, Yueh-Min; Hwang, Jan-Pan (Ноябрь 2016). “Review of affective computing in education/Learning: Trends and challenges”. British Journal of Educational Technology [англ.]. 47 (6): 1304—1323. DOI:10.1111/bjet.12324. Дата обращения 2024-06-01.
- ↑ In-Car Facial Recognition Detects Angry Drivers To Prevent Road Rage (англ.). Gizmodo (30 августа 2018). Дата обращения: 1 июня 2024. Архивировано 15 марта 2014 года.
- ↑ Yonck, Richard. Heart of the Machine: Our Future in a World of Artificial Emotional Intelligence : [англ.]. — New York : Arcade Publishing, 2017. — P. 150–153. — ISBN 9781628727333.
- ↑ Shanahan, James; Qu, Yan; Wiebe, Janyce (2006). Computing Attitude and Affect in Text: Theory and Applications. Dordrecht: Springer Science & Business Media. p. 94. ISBN 1402040261.
- ↑ Gilleade, Kiel Mark; Dix, Alan; Allanson, Jen (2005). Affective Videogames and Modes of Affective Gaming: Assist Me, Challenge Me, Emote Me (PDF). Proceedings of Digital Games Research Association Conference [англ.]. Архивировано из оригинала (PDF) 6 апреля 2015. Дата обращения 2024-06-01. Используется устаревший параметр
|url-status=(справка) - ↑ Sahar, Yotam; Wagner, Michael; Barel, Ariel; Shoval, Shraga (1 ноября 2022). “Stress-Adaptive Training: An Adaptive Psychomotor Training According to Stress Measured by Grip Force”. Sensors [англ.]. 22 (21): 8368. DOI:10.3390/s22218368. PMC 9654132. PMID 36366066.
- ↑ Mona Lisa: Smiling? Computer Scientists Develop Software That Evaluates Facial Expressions (англ.). ScienceDaily (1 августа 2006). Архивировано 19 октября 2007 года.
- ↑ Battarbee, Katja; Koskinen, Ilpo (2005). “Co-experience: user experience as interaction” (PDF). CoDesign [англ.]. 1 (1): 5—18. DOI:10.1080/15710880412331289917. Архивировано из оригинала (PDF) 14 декабря 2017. Дата обращения 2024-06-01. Используется устаревший параметр
|url-status=(справка) - ↑ Boehner, Kirsten; DePaula, Rogerio; Dourish, Paul; Sengers, Phoebe (2007). “How emotion is made and measured”. International Journal of Human–Computer Studies [англ.]. 65 (4): 275—291. DOI:10.1016/j.ijhcs.2006.11.016. S2CID 15551492.
- ↑ Boehner, Kirsten; DePaula, Rogerio; Dourish, Paul; Sengers, Phoebe (2005). “Affection: From Information to Interaction”. Proceedings of the Aarhus Decennial Conference on Critical Computing [англ.]: 59—68.
Литература
- Hudlicka, Eva (2003). “To feel or not to feel: The role of affect in human–computer interaction”. International Journal of Human–Computer Studies [англ.]. 59 (1—2): 1—32. DOI:10.1016/s1071-5819(03)00047-8.
- Scherer, Klaus R. A Blueprint for Affective Computing: A Sourcebook and Manual : [англ.] / Klaus R Scherer, Tanja Bänziger, Etienne B Roesch. — Oxford : Oxford University Press, 2010. — ISBN 978-0-19-956670-9.