Распознавание эмоций
Распознавание эмоций (фр. reconnaissance automatique des émotions) — это процесс идентификации человеческих эмоций с помощью цифровых технологий. Такие инструменты возникли в результате исследований в области информатики и нейронаук, и в 2020-е годы достигли значительных успехов. Распознавание эмоций может выполняться на основе изображений, видеозаписей, голоса, текста или с использованием нескольких таких источников одновременно (мультимодальные подходы обеспечивают лучшие результаты).
В 2024 году модель GPT-4o (разработанная компанией OpenAI), впервые стала общедоступным искусственным интеллектом, для которого распознавание эмоций является встроенной функцией.
Способность человека к определению собственных эмоций и эмоций других людей сильно варьирует. Распознавание невербальных сигналов — выражения лица и тела — может существенно помочь незрячим или слабовидящим людям лучше понимать собеседников. Также технологии распознавания эмоций полезны людям с расстройствами аутистического спектра (РАС), позволяя им лучше выражать собственные чувства и понимать эмоциональное состояние других. М. Д. Либерман и соавт. (2007) с помощью МРТ показали, что сам факт обозначения (вербализации) эмоции снижает физиологическую активность, связанную с ней, в амигдале и лимбической системе и сопровождается увеличением активности вентролатеральной префронтальной коры[1].
Автоматическое распознавание эмоций по выражению лица, голосу, движениям и позам играет ключевую роль для повышения уровня взаимодействия человека и машины[2]: роботам, машинам, транспортным средствам и программному обеспечению (включая видеоигры) позволяет интерпретировать мимику и производить более уместные, «умные» и эмпатичные отклики.
Технологии распознавания эмоций по своей сути нейтральны, но обладают значительным потенциалом для как благоприятных, так и опасных применений:
- могут использоваться на благо общества, например, для онлайн-диагностики, в теле- или дистанционной диагностике[3], в том числе для оценки болевых ощущений[4] и психического состояния (шизофрения[5], депрессия[5], болезнь Паркинсона[6], сонливость[7], усталость, хроническая усталость[8], СДВГ[8], паническое расстройство, для понимания эмоционального состояния младенцев, пациентов, пожилых людей, неспособных говорить, а также для дистанционного мониторинга пациентов в медицинских учреждениях[9]; может применяться для оценки вовлечённости учащихся при дистанционном обучении, для выявления признаков алкогольного или наркотического опьянения, невнимательности и сонливости водителей для предотвращения аварий[10], а также для целей безопасности[11].
- используется в социологических опросах и маркетинговых исследованиях;
- возможны и злоумышленное применение: такие системы способны тайно, незаконно и без согласия выявлять глубоко личные или интимные сведения о людях на видео в общественных местах или офисах, что может привести к тяжёлым последствиям в суде (из-за искажений и ошибок, так как такие ИИ зачастую обучены на ограниченных выборках), а также создать риски в условиях общества слежки или авторитарного режима. Кроме того, анализируя данные веб-мнений (opinion mining), такие технологии способны способствовать психологическим манипуляциям в интернете, в том числе в предвыборных кампаниях и с помощью социальных сетей (пример — скандал Facebook-Cambridge Analytica/AggregateIQ, где система RIPON применялась для манипуляций на выборах в США и Brexit).
История
Ряд технологических систем создаётся всё более человеком-подобными для различных задач[11]. Эта тенденция ускорила развитие средств автоматического распознавания эмоций.
Дисциплина вышла из области распознавания лиц, где задачи постепенно усложнялись до автоматизации определения выражения лица по фото- и видеоданным, а также к обработке аудиовыражений, анализа письменной речи и физиологических сигналов (пульс, электрокардиограмма, электроэнцефалограмма (ЭЭГ)[12][13][14]), состояния кожи, тремора, цвета и характеристик кожных покровов, движений бровей, глаз, ноздрей, ушей, рта, зрачков, увлажнения полости рта, микрорефлекторных реакций мышц и пр.
ИИ также используется для оценки текущей когнитивной нагрузки на человека[15]. В кинетике известно, что осанка и движения человека несут специфическую эмоциональную информацию. Недавно опробована система «умной подушки» с инерциальными сенсорами на запястьях — с помощью анализа осанки и жестов пользователя обеспечивается определение его эмоционального состояния, что может быть полезно для диагностики состояния работников офисов, водителей-дальнобойщиков, людей с ограниченной подвижностью и др.
Краткие сведения об эмоциях
В зависимости от индивидуальных особенностей и ситуации, человек склонен по-разному проявлять или скрывать свои эмоции и намерения (интроверсия, экстраверсия).
Эмоция определяется как психофизиологическое и психологическое состояние человека в данный момент времени[3].
Человек может по-разному определять и выражать, как у себя, так и у других, базовые эмоции — радость, страх, гнев, удивление, печаль, отвращение, а также более сложные вторичные эмоциональные состояния. Анализу поддаются также интенсивность, валентность (положительность или отрицательность) выражения эмоций — параметры, которые может учитывать искусственный интеллект.
Способность к распознаванию эмоций у себя и других зависит также от возраста, внимания, состояния зрения, слуха и функционирования сенсорных систем.
Прирождённая или приобретённая (например, вследствие травмы мозга) неспособность распознавать свои или чужие эмоции называется алекситимией. Трудности в поддержании зрительного контакта, анализе лиц и интерпретации эмоций часто наблюдаются при аутизме.
Мозг человека способен ошибаться в интерпретации эмоций: собеседник может симулировать или скрывать чувства. Например, человек может испытывать печаль, но демонстрировать улыбку и тем самым вводить окружающих в заблуждение.
Во многих культурах детей учат не проявлять или даже скрывать определённые эмоции. Макияж, вуаль, солнечные очки могут закрывать много эмоциональных сигналов.
В XXI веке исследователи в области искусственного интеллекта пытаются научить машины实时но определять эмоции на основе анализа многочисленных малозаметных и невербальных признаков, по аналогии с работой человеческого мозга.
Если автоматическая система распознавания эмоций демонстрирует сопоставимые с экспертной группой людей результаты, она считается достаточно точной (хотя реальное субъективное переживание эмоции она не фиксирует).
Алекситимики (особенно дети с аутизмом) часто не имеют чёткой внутренней картины своих эмоций и затрудняются выразить их словами, цифрами или кодами. В 2015 году Nursuriati Jamil и соавторы предложили для таких случаев оценку локомоции как альтернативу анализу лица или голоса для выявления состояния (нейтральные, радостные, грустные, сердитые).
В рамках эмоциональной информатики современные ИИ способны идентифицировать малозаметные эмоциональные паттерны, которые зачастую не улавливаются человеком[16].
Процесс осознания своих эмоций требует усилий, с которыми может помочь как психолог, так и потенциально искусственный интеллект.
Автоматическое распознавание эмоций
Многолетние исследования в области психологии, психоанализа и психиатрии, а также достижения в области обработки изображений и искусственного интеллекта привели к появлению надёжных, точных и быстрых методов автоматического распознавания эмоций.
Широко развиты методы обработки сигналов, машинного обучения, компьютерное зрение и обработка речи, в которых используются байесовские сети[17], гауссовские смесевые модели[18], скрытые марковские модели[19] и глубокое обучение с применением нейронных сетей[20].
Методы развития сменялись от экспертных систем (2010-е) к унимодальным алгоритмическим подходам, затем комплексным мультимодальным[21]; в 2020-х появились эффективные методы мультимодального распознавания[21][22][23]. Мультимодальные системы интегрируют эмоциональные признаки из мимики, движений тела, речи и текста[24].
Выделяют три основных класса методов:
- основанные на знаниях;
- статистические;
- гибридные[25].
Часто отмечается, что развитие этих технологий приводит к формированию особого эмоционального слоя интернета[26].
Иногда называемые лексиконными, такие подходы используют экспертизу предметной области и семантику с синтаксисом языка для выявления эмоций в тексте[27].
Для классификации эмоций часто используют базы типа WordNet, SenticNet[28], ConceptNet или EmotiNet[29][30]. Преимущество — доступность и экономичность, поскольку ресурсы легкодоступны[25]. Ограничения связаны с трудностями учёта нюансов и сложных языковых правил[25].
- Лексические — опираются на словари эмоций и их синонимов/антонимов[31].
- Корпусные — расширяют базы эмоций анализом больших корпусов по заданным признакам[31]; производительность таких методов зависит от домена[32].
Используют алгоритмы машинного обучения, обучаемые на размеченных данных для прогнозирования и классификации эмоций[25]. Такие методы часто более точны, но требуют объёмных качественно размеченных датасетов[25]. Среди широко используемых — метод опорных векторов, наивный байесовский классификатор, Maximum Entropy[33].
Глубокое обучение, относящееся к несупервизируемому обучению, обеспечивает значительный прогресс в распознавании эмоций[34][35][36]. Применяются архитектуры сверточных нейросетей[37], рекуррентные сети (LSTM), extreme learning machine и т. д[33]..
Популярность глубокого обучения объясняется его успехами в компьютерном зрении, распознавании речи и обработке естественного языка[33].
Комбинируют сильные стороны и знания, и статистики[25], достигая большей эффективности, но требуют большего вычислительного ресурса и более сложной архитектуры[30]. Известные примеры — sentic computing, iFeel, интегрирующие SenticNet[38][39].
Роль семантических ресурсов в гибридных методах велика[30].
Качество данных ключево для современных систем распознавания эмоций.
Однако представительные и не искажённые размеченные данные трудно получить: важно охватить разные культуры, возрастные группы и спектр эмоций[31].
Для мультимодального анализа (текст, звук, видео, физиология) используются различные датасеты:
- HUMAINE — клипы с эмоциями и контекстом в разных модальностях[40];
- Belfast — записи различных эмоций из ТВ-программ и интервью[41];
- SEMAINE — аудиовизуальные беседы с виртуальным агентом, аннотированные по семи эмоциям[42];
- IEMOCAP — диалоговые сессии между актёрами с аннотацией эмоций[43];
- eNTERFACE — аудиовизуальные записи семи национальностей, эмоции «радость», «гнев», «грусть», «удивление», «отвращение», «страх»[44];
- DEAP — ЭЭГ, ЭКГ, и видео с аннотациями валентности, возбуждения, доминирования по просмотру видеосюжетов[45];
- DREAMER — ЭЭГ и ЭКГ с аннотациями по эмоциональным характеристикам[46];
- MELD — набор многопартийных разговоров в видео, каждый сегмент размечен по эмоциям[47];
- MuSe — аудиовизуальные данные взаимодействия человека с объектом, аннотация по валентности, возбуждению и доверительности[48];
- UIT-VSMEC — корпус на вьетнамских соцсетях (~6927 человечески размеченных фраз), полезен для низкоресурсных языков[49];
- BED — ЭЭГ-биометрия, запись реакций на стимулы, задачи биометрии и анализа возбуждения/валентности[50].
Распознавание эмоций применяется в разных областях:
Так, компания Affectiva (выделенная из MIT) разработала ИИ для анализа выражения лица и голоса, применяемого там, где люди согласны делиться такими данными: вместо опросов зритель, согласившись, позволяет системе снимать своё лицо и голос при просмотре ролика. Анализируются только внешние проявления (скука, интерес, улыбка и пр.), а не личные чувства. ПО помогает детям с аутизмом и незрячим, а также роботам — для более естественного взаимодействия, и системам мониторинга внимания водителей, повышая дорожную безопасность[51].
В академической сфере распознавание эмоций помогает анализу социальных процессов (чувства, выборы, протесты, демократия), в том числе через анализ мимики политиков в соцсетях — отмечается, что публичные лица чаще демонстрируют экстраверсию и радость[52][53][54].
Изучаются протесты, войны и ситуации насилия, где сложные негативные эмоции (гнев, печаль, депрессия, фрустрация, эмпатия) требуют специальных моделей[55].
В 2020-х ИИ-сервисы типа Amazon Rekognition по ряду исследований надёжно выявляют только «радость» (детекторы счастья)[52].
Snapchat в 2015 году запатентовал[56] алгоритм анализа эмоций по геолокации селфи пользователей на массовых мероприятиях[57].
Стартап Emotient занимался автоматическим определением эмоций по сочетаниям мимических движений; технология была приобретена Apple в 2016 году и используется для развития эмоциональных функций продуктов компании[58].
nViso предлагает онлайн-API для распознавания эмоций в веб- и мобильных приложениях[59]. Visage Technologies AB — инструменты оценки эмоций для маркетинга и исследований[60].
Компания Eyeris интегрирует распознавание эмоций в встраиваемые системы (автомобили, сервисные роботы и др.), а также для оценки воздействия контента[61][62].
В ряде систем собирается статистика эмоций из онлайн-метрик (лайки, тональность сообщений).
Анализ эмоций используется в игровых и VR-системах (в том числе для управления аватарами), в образовательных и коммуникативных целях.
Перспективы
С развитием мультимодального ИИ точность автоматического распознавания эмоций продолжает расти — используются текст (разговоры), аудио (модуляции голоса), изображения, видео и даже физиологические показатели.
В 2024 году исследователи из университета Ёнсе (Сеул) предложили новую модель ИИ для мультимодального анализа эмоций, интегрирующую как физиологические, так и индивидуальные и средовые данные[63].
Предлагается применять ИИ для оценки эмоционального состояния солдат во время тренировок и в реальных боевых условиях, а также при определении психологической пригодности[3].
Такие достижения могут в будущем приблизить роботов к эмоциональному интеллекту человека — способности ощущать, регулировать, выражать и интерпретировать эмоции других. Однако системам ИИ ещё далеко до таких аспектов, как:
- самосознание, позволяющее чувствовать и регулировать собственные эмоции;
- эмпатия, опирающаяся, в частности, на систему зеркальных нейронов.
Эти технологии порождают значимые этические и философские вопросы — в частности, относительно защиты личных данных и возможных предвзятостей ИИ.
Текстовые данные (самоотчёты, анкеты, транскрипты диалогов, дневники) — удобный объект для автоматизированного анализа эмоций и бывают доступны в больших объёмах.
В отличие от других видов данных, тексты более компактны и легко обрабатываются (за счёт повтора лексики).
Эмоции могут быть извлечены из текста[64] путём поиска слов и фраз, индикаторов эмоциональных состояний[65][66].
Отдельно развивается область анализа эмоций, выраженных в устной речи (SER — speech emotion recognition)[2].
Различие от анализа текстов состоит в том, что для распознавания эмоций используются параметры голоса и интонации[67].
Видео сочетает аудио-, визуальные и иногда текстовые данные (субтитры[68]).
Технологии распознавания эмоций в коммуникациях (REC) извлекают эмоции (и иногда мнения) из диалоговых данных, включая крупные массивы публикуемых на онлайн-платформах (Facebook, Twitter/X, YouTube и др.)[69]. Системы анализируют текст, голос, видео по отдельности или в комбинации; нейросети мультимодальных ИИ (например, GPT-4o) способны выявлять широкий спектр эмоций в единой архитектуре сети.
Примечания
Литература
- Ahmed, Naveed; Al Aghbari, Zaher; Girija, Shini (февраль 2023). “A systematic survey on multimodal emotion recognition using learning algorithms”. Intelligent Systems with Applications [англ.]. 17. DOI:10.1016/j.iswa.2022.200171. Проверьте дату в
|date=(справка на английском) - Dadebayev, Didar; Goh, Wei Wei; Tan, Ee Xion (июль 2022). “EEG-based emotion recognition: Review of commercial EEG devices and machine learning techniques”. Journal of King Saud University – Computer and Information Sciences [англ.]. 34 (7): 4385–4401. DOI:j.jksuci.2021.03.009 Проверьте параметр
|doi=(справка на английском). Проверьте дату в|date=(справка на английском) - Zou, ShiHao; Huang, Xianying; Shen, XuDong; Liu, Hankai (22 декабря 2022). “Improving multimodal fusion with Main Modal Transformer for emotion recognition in conversation” (pdf). Knowledge-Based Systems [англ.]. 258. DOI:10.1016/j.knosys.2022.109978. Дата обращения 2024-05-20.


