Мультимодальный анализ тональности

Мультимодальный анализ тональности — технология, расширяющая традиционный текстовый анализ тональности, за счёт учёта различных модальностей, таких как аудио- и визуальные данные^[1]. Анализ может быть бимодальным — с различным сочетанием двух модальностей — или тримодальным, когда используются три модальности^[2]. С развитием социальных медиа, где онлайн-данные представлены в виде видео, изображений и других форм, традиционный текстовый анализ тональности эволюционировал в более сложные модели мультимодального анализа^[3], которые применяются в разработке виртуальных ассистентов^[4], анализе рецензий на фильмы на YouTube^[5], анализе видео новостей^[6], а также в задачах распознавание эмоций (или детектирование эмоций), например, мониторинга депрессии и др^[7].

Как и в традиционном анализе тональности, одной из базовых задач мультимодального анализа является классификация тональности, при которой чувства разделяются на категории, такие как положительная, отрицательная или нейтральная^[8]. Для подобной классификации требуется анализ и объединение текстовых, аудиальных и визуальных признаков с помощью различных методов слияния: на уровне признаков, на уровне решений, либо гибридных^[3]. Эффективность таких методов слияния и используемых алгоритмов классификации зависит от типа применяемых признаков^[9].

Инженерия признаков, то есть отбор характеристик, подаваемых на вход алгоритмам машинного обучения, играет ключевую роль в классификации тональности^[9]. В мультимодальном анализе тональности используется комбинация различных текстовых, аудиальных и визуальных признаков^[3].

Текстовые признаки

Подобно классическому текстовому анализу тональности, наиболее часто применяемыми текстовыми признаками являются униграммы и n-граммы, то есть последовательности слов в сообщении^[10]. Такие признаки преобразуются через представления bag-of-words («мешок слов») или bag-of-concepts («мешок концепций»), в которых слова или понятия отражаются в виде векторов в числовом пространстве^[11]^[12].

Аудиальные признаки

Тональные и эмоциональные характеристики проявляются в различных фонетических и просодических признаках аудио^[13]. К основным аудиальным признакам относятся мел-частотные кепстральные коэффициенты (MFCC), спектральный центроид, спектральный флюкс, гистограмма ритма, суммарный ритм, характеристики выраженности ударов, длительности пауз и высота тона^[3] Среди популярных открытых инструментов для извлечения аудиальных признаков — OpenSMILE^[14]. и Praat^[15].

Визуальные признаки

Главное преимущество анализа видео по сравнению с только текстом — наличие богатых визуальных сигналов тональности^[16]. Визуальные признаки включают выражение лица, которые крайне важны для распознавания тональности и эмоций, так как являются основным каналом выражения эмоционального состояния^[3] В частности, улыбка считается одним из наиболее показательным визуальных признаков в мультимодальном анализе.^[11]. Для извлечения и интерпретации таких признаков может применяться открытый инструмент OpenFace^[17].

В отличие от классического текстового анализа тональности, мультимодальный анализ предусматривает слияние данных из разных модальностей (текст, аудио, визуальные данные) для совместного анализа^[3] Подходы к слиянию данных делятся на три основные категории: на уровне признаков, на уровне решений и гибридные, а эффективность классификации тональности зависит от выбранного метода.^[3]

Слияние на уровне признаков

Слияние на уровне признаков (или раннее слияние) объединяет все признаки из каждой модальности в единую векторную структуру, которую затем подают на вход алгоритму классификации.^[18]. Одной из сложностей является совместимость разнородных признаков^[3].

Слияние на уровне решений

Слияние на уровне решений (или позднее слияние) подразумевает первоначальную независимую классификацию данных по каждой модальности (текста, аудио, визуальных данных) с последующим объединением полученных решений в итоговый результат.^[18] Преимущество этого подхода — отсутствие необходимости прямого объединения неоднородных признаков; каждая модальность использует наиболее подходящий для себя алгоритм классификации^[3].

Гибридное слияние

Гибридное слияние сочетает методы слияния на уровне признаков и решений, использует дополнительные преимущества обоих подходов.^[5]. Обычно применяется двухэтапная схема: сначала происходит слияние признаков двух модальностей, а затем полученные на этом этапе результаты объединяются с третьей модальностью путём слияния на уровне решений^[19]^[20].

Подобно текстовому анализу тональности, мультимодальный анализ используется для построения различных рекомендательных систем, например для анализа пользовательских видеообзоров фильмов^[5] и общих обзоров товаров^[21], для предсказания й оценки клиентских мнений и формирования соответствующих рекомендаций по продуктам или услугам^[22]. Мультимодальный анализ также важен для развития виртуальных ассистентов с использованием методов обработки естественного языка (NLP) и машинного обучения^[4]. В здравоохранении мультимодальный анализ тональности может применяться для обнаружения состояний, таких как стресс, тревога или депрессия^[7]. Анализ роликов новостных программ с точки зрения выражения тональности является сложной задачей, поскольку репортеры часто прибегают к нейтральной окраске высказываний^[23].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Мультимодальный анализ тональности

Признаки

Текстовые признаки

Аудиальные признаки

Визуальные признаки

Методы слияния

Слияние на уровне признаков

Слияние на уровне решений

Гибридное слияние

Применение

Примечания

Категории