Распознавание эмоций

Распознавание эмоций (фр. reconnaissance automatique des émotions) — это процесс идентификации человеческих эмоций с помощью цифровых технологий. Такие инструменты возникли в результате исследований в области информатики и нейронаук, и в 2020-е годы достигли значительных успехов. Распознавание эмоций может выполняться на основе изображений, видеозаписей, голоса, текста или с использованием нескольких таких источников одновременно (мультимодальные подходы обеспечивают лучшие результаты).

В 2024 году модель GPT-4o (разработанная компанией OpenAI), впервые стала общедоступным искусственным интеллектом, для которого распознавание эмоций является встроенной функцией.

Способность человека к определению собственных эмоций и эмоций других людей сильно варьирует. Распознавание невербальных сигналов — выражения лица и тела — может существенно помочь незрячим или слабовидящим людям лучше понимать собеседников. Также технологии распознавания эмоций полезны людям с расстройствами аутистического спектра (РАС), позволяя им лучше выражать собственные чувства и понимать эмоциональное состояние других. М. Д. Либерман и соавт. (2007) с помощью МРТ показали, что сам факт обозначения (вербализации) эмоции снижает физиологическую активность, связанную с ней, в амигдале и лимбической системе и сопровождается увеличением активности вентролатеральной префронтальной коры^[1].

Автоматическое распознавание эмоций по выражению лица, голосу, движениям и позам играет ключевую роль для повышения уровня взаимодействия человека и машины^[2]: роботам, машинам, транспортным средствам и программному обеспечению (включая видеоигры) позволяет интерпретировать мимику и производить более уместные, «умные» и эмпатичные отклики.

Технологии распознавания эмоций по своей сути нейтральны, но обладают значительным потенциалом для как благоприятных, так и опасных применений:

могут использоваться на благо общества, например, для онлайн-диагностики, в теле- или дистанционной диагностике^[3], в том числе для оценки болевых ощущений^[4] и психического состояния (шизофрения^[5], депрессия^[5], болезнь Паркинсона^[6], сонливость^[7], усталость, хроническая усталость^[8], СДВГ^[8], паническое расстройство, для понимания эмоционального состояния младенцев, пациентов, пожилых людей, неспособных говорить, а также для дистанционного мониторинга пациентов в медицинских учреждениях^[9]; может применяться для оценки вовлечённости учащихся при дистанционном обучении, для выявления признаков алкогольного или наркотического опьянения, невнимательности и сонливости водителей для предотвращения аварий^[10], а также для целей безопасности^[11].
используется в социологических опросах и маркетинговых исследованиях;
возможны и злоумышленное применение: такие системы способны тайно, незаконно и без согласия выявлять глубоко личные или интимные сведения о людях на видео в общественных местах или офисах, что может привести к тяжёлым последствиям в суде (из-за искажений и ошибок, так как такие ИИ зачастую обучены на ограниченных выборках), а также создать риски в условиях общества слежки или авторитарного режима. Кроме того, анализируя данные веб-мнений (opinion mining), такие технологии способны способствовать психологическим манипуляциям в интернете, в том числе в предвыборных кампаниях и с помощью социальных сетей (пример — скандал Facebook-Cambridge Analytica/AggregateIQ, где система RIPON применялась для манипуляций на выборах в США и Brexit).

Ряд технологических систем создаётся всё более человеком-подобными для различных задач^[11]. Эта тенденция ускорила развитие средств автоматического распознавания эмоций.

Дисциплина вышла из области распознавания лиц, где задачи постепенно усложнялись до автоматизации определения выражения лица по фото- и видеоданным, а также к обработке аудиовыражений, анализа письменной речи и физиологических сигналов (пульс, электрокардиограмма, электроэнцефалограмма (ЭЭГ)^[12]^[13]^[14]), состояния кожи, тремора, цвета и характеристик кожных покровов, движений бровей, глаз, ноздрей, ушей, рта, зрачков, увлажнения полости рта, микрорефлекторных реакций мышц и пр.

ИИ также используется для оценки текущей когнитивной нагрузки на человека^[15]. В кинетике известно, что осанка и движения человека несут специфическую эмоциональную информацию. Недавно опробована система «умной подушки» с инерциальными сенсорами на запястьях — с помощью анализа осанки и жестов пользователя обеспечивается определение его эмоционального состояния, что может быть полезно для диагностики состояния работников офисов, водителей-дальнобойщиков, людей с ограниченной подвижностью и др.

В зависимости от индивидуальных особенностей и ситуации, человек склонен по-разному проявлять или скрывать свои эмоции и намерения (интроверсия, экстраверсия).

Эмоция определяется как психофизиологическое и психологическое состояние человека в данный момент времени^[3].

Человек может по-разному определять и выражать, как у себя, так и у других, базовые эмоции — радость, страх, гнев, удивление, печаль, отвращение, а также более сложные вторичные эмоциональные состояния. Анализу поддаются также интенсивность, валентность (положительность или отрицательность) выражения эмоций — параметры, которые может учитывать искусственный интеллект.

Способность к распознаванию эмоций у себя и других зависит также от возраста, внимания, состояния зрения, слуха и функционирования сенсорных систем.

Прирождённая или приобретённая (например, вследствие травмы мозга) неспособность распознавать свои или чужие эмоции называется алекситимией. Трудности в поддержании зрительного контакта, анализе лиц и интерпретации эмоций часто наблюдаются при аутизме.

Мозг человека способен ошибаться в интерпретации эмоций: собеседник может симулировать или скрывать чувства. Например, человек может испытывать печаль, но демонстрировать улыбку и тем самым вводить окружающих в заблуждение.

Во многих культурах детей учат не проявлять или даже скрывать определённые эмоции. Макияж, вуаль, солнечные очки могут закрывать много эмоциональных сигналов.

В XXI веке исследователи в области искусственного интеллекта пытаются научить машины实时но определять эмоции на основе анализа многочисленных малозаметных и невербальных признаков, по аналогии с работой человеческого мозга.

Если автоматическая система распознавания эмоций демонстрирует сопоставимые с экспертной группой людей результаты, она считается достаточно точной (хотя реальное субъективное переживание эмоции она не фиксирует).

Алекситимики (особенно дети с аутизмом) часто не имеют чёткой внутренней картины своих эмоций и затрудняются выразить их словами, цифрами или кодами. В 2015 году Nursuriati Jamil и соавторы предложили для таких случаев оценку локомоции как альтернативу анализу лица или голоса для выявления состояния (нейтральные, радостные, грустные, сердитые).

В рамках эмоциональной информатики современные ИИ способны идентифицировать малозаметные эмоциональные паттерны, которые зачастую не улавливаются человеком^[16].

Процесс осознания своих эмоций требует усилий, с которыми может помочь как психолог, так и потенциально искусственный интеллект.

Многолетние исследования в области психологии, психоанализа и психиатрии, а также достижения в области обработки изображений и искусственного интеллекта привели к появлению надёжных, точных и быстрых методов автоматического распознавания эмоций.

Широко развиты методы обработки сигналов, машинного обучения, компьютерное зрение и обработка речи, в которых используются байесовские сети^[17], гауссовские смесевые модели^[18], скрытые марковские модели^[19] и глубокое обучение с применением нейронных сетей^[20].

Подходы

Методы развития сменялись от экспертных систем (2010-е) к унимодальным алгоритмическим подходам, затем комплексным мультимодальным^[21]; в 2020-х появились эффективные методы мультимодального распознавания^[21]^[22]^[23]. Мультимодальные системы интегрируют эмоциональные признаки из мимики, движений тела, речи и текста^[24].

Выделяют три основных класса методов:

основанные на знаниях;
статистические;
гибридные^[25].

Часто отмечается, что развитие этих технологий приводит к формированию особого эмоционального слоя интернета^[26].

Технологии, основанные на знаниях

Иногда называемые лексиконными, такие подходы используют экспертизу предметной области и семантику с синтаксисом языка для выявления эмоций в тексте^[27].

Для классификации эмоций часто используют базы типа WordNet, SenticNet^[28], ConceptNet или EmotiNet^[29]^[30]. Преимущество — доступность и экономичность, поскольку ресурсы легкодоступны^[25]. Ограничения связаны с трудностями учёта нюансов и сложных языковых правил^[25].

Лексические — опираются на словари эмоций и их синонимов/антонимов^[31].
Корпусные — расширяют базы эмоций анализом больших корпусов по заданным признакам^[31]; производительность таких методов зависит от домена^[32].

Статистические методы

Используют алгоритмы машинного обучения, обучаемые на размеченных данных для прогнозирования и классификации эмоций^[25]. Такие методы часто более точны, но требуют объёмных качественно размеченных датасетов^[25]. Среди широко используемых — метод опорных векторов, наивный байесовский классификатор, Maximum Entropy^[33].

Глубокое обучение, относящееся к несупервизируемому обучению, обеспечивает значительный прогресс в распознавании эмоций^[34]^[35]^[36]. Применяются архитектуры сверточных нейросетей^[37], рекуррентные сети (LSTM), extreme learning machine и т. д^[33]..

Популярность глубокого обучения объясняется его успехами в компьютерном зрении, распознавании речи и обработке естественного языка^[33].

Гибридные подходы

Комбинируют сильные стороны и знания, и статистики^[25], достигая большей эффективности, но требуют большего вычислительного ресурса и более сложной архитектуры^[30]. Известные примеры — sentic computing, iFeel, интегрирующие SenticNet^[38]^[39].

Роль семантических ресурсов в гибридных методах велика^[30].

Наборы данных

Качество данных ключево для современных систем распознавания эмоций.

Однако представительные и не искажённые размеченные данные трудно получить: важно охватить разные культуры, возрастные группы и спектр эмоций^[31].

Для мультимодального анализа (текст, звук, видео, физиология) используются различные датасеты:

HUMAINE — клипы с эмоциями и контекстом в разных модальностях^[40];
Belfast — записи различных эмоций из ТВ-программ и интервью^[41];
SEMAINE — аудиовизуальные беседы с виртуальным агентом, аннотированные по семи эмоциям^[42];
IEMOCAP — диалоговые сессии между актёрами с аннотацией эмоций^[43];
eNTERFACE — аудиовизуальные записи семи национальностей, эмоции «радость», «гнев», «грусть», «удивление», «отвращение», «страх»^[44];
DEAP — ЭЭГ, ЭКГ, и видео с аннотациями валентности, возбуждения, доминирования по просмотру видеосюжетов^[45];
DREAMER — ЭЭГ и ЭКГ с аннотациями по эмоциональным характеристикам^[46];
MELD — набор многопартийных разговоров в видео, каждый сегмент размечен по эмоциям^[47];
MuSe — аудиовизуальные данные взаимодействия человека с объектом, аннотация по валентности, возбуждению и доверительности^[48];
UIT-VSMEC — корпус на вьетнамских соцсетях (~6927 человечески размеченных фраз), полезен для низкоресурсных языков^[49];
BED — ЭЭГ-биометрия, запись реакций на стимулы, задачи биометрии и анализа возбуждения/валентности^[50].

Применение

Распознавание эмоций применяется в разных областях:

Так, компания Affectiva (выделенная из MIT) разработала ИИ для анализа выражения лица и голоса, применяемого там, где люди согласны делиться такими данными: вместо опросов зритель, согласившись, позволяет системе снимать своё лицо и голос при просмотре ролика. Анализируются только внешние проявления (скука, интерес, улыбка и пр.), а не личные чувства. ПО помогает детям с аутизмом и незрячим, а также роботам — для более естественного взаимодействия, и системам мониторинга внимания водителей, повышая дорожную безопасность^[51].

В академической сфере распознавание эмоций помогает анализу социальных процессов (чувства, выборы, протесты, демократия), в том числе через анализ мимики политиков в соцсетях — отмечается, что публичные лица чаще демонстрируют экстраверсию и радость^[52]^[53]^[54].

Изучаются протесты, войны и ситуации насилия, где сложные негативные эмоции (гнев, печаль, депрессия, фрустрация, эмпатия) требуют специальных моделей^[55].

В 2020-х ИИ-сервисы типа Amazon Rekognition по ряду исследований надёжно выявляют только «радость» (детекторы счастья)^[52].

Snapchat в 2015 году запатентовал^[56] алгоритм анализа эмоций по геолокации селфи пользователей на массовых мероприятиях^[57].

Стартап Emotient занимался автоматическим определением эмоций по сочетаниям мимических движений; технология была приобретена Apple в 2016 году и используется для развития эмоциональных функций продуктов компании^[58].

nViso предлагает онлайн-API для распознавания эмоций в веб- и мобильных приложениях^[59]. Visage Technologies AB — инструменты оценки эмоций для маркетинга и исследований^[60].

Компания Eyeris интегрирует распознавание эмоций в встраиваемые системы (автомобили, сервисные роботы и др.), а также для оценки воздействия контента^[61]^[62].

В ряде систем собирается статистика эмоций из онлайн-метрик (лайки, тональность сообщений).

Анализ эмоций используется в игровых и VR-системах (в том числе для управления аватарами), в образовательных и коммуникативных целях.

С развитием мультимодального ИИ точность автоматического распознавания эмоций продолжает расти — используются текст (разговоры), аудио (модуляции голоса), изображения, видео и даже физиологические показатели.

В 2024 году исследователи из университета Ёнсе (Сеул) предложили новую модель ИИ для мультимодального анализа эмоций, интегрирующую как физиологические, так и индивидуальные и средовые данные^[63].

Предлагается применять ИИ для оценки эмоционального состояния солдат во время тренировок и в реальных боевых условиях, а также при определении психологической пригодности^[3].

Такие достижения могут в будущем приблизить роботов к эмоциональному интеллекту человека — способности ощущать, регулировать, выражать и интерпретировать эмоции других. Однако системам ИИ ещё далеко до таких аспектов, как:

самосознание, позволяющее чувствовать и регулировать собственные эмоции;
эмпатия, опирающаяся, в частности, на систему зеркальных нейронов.

Эти технологии порождают значимые этические и философские вопросы — в частности, относительно защиты личных данных и возможных предвзятостей ИИ.

Распознавание эмоций в текстах и коммуникациях

Текстовые данные (самоотчёты, анкеты, транскрипты диалогов, дневники) — удобный объект для автоматизированного анализа эмоций и бывают доступны в больших объёмах.

В отличие от других видов данных, тексты более компактны и легко обрабатываются (за счёт повтора лексики).

Эмоции могут быть извлечены из текста^[64] путём поиска слов и фраз, индикаторов эмоциональных состояний^[65]^[66].

Отдельно развивается область анализа эмоций, выраженных в устной речи (SER — speech emotion recognition)^[2].

Распознавание эмоций в аудиосреде

Различие от анализа текстов состоит в том, что для распознавания эмоций используются параметры голоса и интонации^[67].

Анализ эмоций в видеоданных

Видео сочетает аудио-, визуальные и иногда текстовые данные (субтитры^[68]).

Распознавание эмоций в диалоге в режиме близком к реальному времени

Технологии распознавания эмоций в коммуникациях (REC) извлекают эмоции (и иногда мнения) из диалоговых данных, включая крупные массивы публикуемых на онлайн-платформах (Facebook, Twitter/X, YouTube и др.)^[69]. Системы анализируют текст, голос, видео по отдельности или в комбинации; нейросети мультимодальных ИИ (например, GPT-4o) способны выявлять широкий спектр эмоций в единой архитектуре сети.

Ahmed, Naveed; Al Aghbari, Zaher; Girija, Shini (февраль 2023). “A systematic survey on multimodal emotion recognition using learning algorithms”. Intelligent Systems with Applications [англ.]. 17. DOI:10.1016/j.iswa.2022.200171. Проверьте дату в |date= (справка на английском)
Dadebayev, Didar; Goh, Wei Wei; Tan, Ee Xion (июль 2022). “EEG-based emotion recognition: Review of commercial EEG devices and machine learning techniques”. Journal of King Saud University – Computer and Information Sciences [англ.]. 34 (7): 4385–4401. DOI:j.jksuci.2021.03.009 Проверьте параметр |doi= (справка на английском). Проверьте дату в |date= (справка на английском)
Zou, ShiHao; Huang, Xianying; Shen, XuDong; Liu, Hankai (22 декабря 2022). “Improving multimodal fusion with Main Modal Transformer for emotion recognition in conversation” (pdf). Knowledge-Based Systems [англ.]. 258. DOI:10.1016/j.knosys.2022.109978. Дата обращения 2024-05-20.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

Распознавание эмоций

История

Краткие сведения об эмоциях

Автоматическое распознавание эмоций