Мультимодальный анализ тональности

Мультимодальный анализ тональности — технология, расширяющая традиционный текстовый анализ тональности, за счёт учёта различных модальностей, таких как аудио- и визуальные данные[1]. Анализ может быть бимодальным — с различным сочетанием двух модальностей — или тримодальным, когда используются три модальности[2]. С развитием социальных медиа, где онлайн-данные представлены в виде видео, изображений и других форм, традиционный текстовый анализ тональности эволюционировал в более сложные модели мультимодального анализа[3], которые применяются в разработке виртуальных ассистентов[4], анализе рецензий на фильмы на YouTube[5], анализе видео новостей[6], а также в задачах распознавание эмоций (или детектирование эмоций), например, мониторинга депрессии и др[7].

Как и в традиционном анализе тональности, одной из базовых задач мультимодального анализа является классификация тональности, при которой чувства разделяются на категории, такие как положительная, отрицательная или нейтральная[8]. Для подобной классификации требуется анализ и объединение текстовых, аудиальных и визуальных признаков с помощью различных методов слияния: на уровне признаков, на уровне решений, либо гибридных[3]. Эффективность таких методов слияния и используемых алгоритмов классификации зависит от типа применяемых признаков[9].

Признаки

Инженерия признаков, то есть отбор характеристик, подаваемых на вход алгоритмам машинного обучения, играет ключевую роль в классификации тональности[9]. В мультимодальном анализе тональности используется комбинация различных текстовых, аудиальных и визуальных признаков[3].

Текстовые признаки

Подобно классическому текстовому анализу тональности, наиболее часто применяемыми текстовыми признаками являются униграммы и n-граммы, то есть последовательности слов в сообщении[10]. Такие признаки преобразуются через представления bag-of-words («мешок слов») или bag-of-concepts («мешок концепций»), в которых слова или понятия отражаются в виде векторов в числовом пространстве[11][12].

Аудиальные признаки

Тональные и эмоциональные характеристики проявляются в различных фонетических и просодических признаках аудио[13]. К основным аудиальным признакам относятся мел-частотные кепстральные коэффициенты (MFCC), спектральный центроид, спектральный флюкс, гистограмма ритма, суммарный ритм, характеристики выраженности ударов, длительности пауз и высота тона[3] Среди популярных открытых инструментов для извлечения аудиальных признаков — OpenSMILE[14]. и Praat[15].

Визуальные признаки

Главное преимущество анализа видео по сравнению с только текстом — наличие богатых визуальных сигналов тональности[16]. Визуальные признаки включают выражение лица, которые крайне важны для распознавания тональности и эмоций, так как являются основным каналом выражения эмоционального состояния[3] В частности, улыбка считается одним из наиболее показательным визуальных признаков в мультимодальном анализе.[11]. Для извлечения и интерпретации таких признаков может применяться открытый инструмент OpenFace[17].

Методы слияния

В отличие от классического текстового анализа тональности, мультимодальный анализ предусматривает слияние данных из разных модальностей (текст, аудио, визуальные данные) для совместного анализа[3] Подходы к слиянию данных делятся на три основные категории: на уровне признаков, на уровне решений и гибридные, а эффективность классификации тональности зависит от выбранного метода.[3]

Слияние на уровне признаков

Слияние на уровне признаков (или раннее слияние) объединяет все признаки из каждой модальности в единую векторную структуру, которую затем подают на вход алгоритму классификации.[18]. Одной из сложностей является совместимость разнородных признаков[3].

Слияние на уровне решений

Слияние на уровне решений (или позднее слияние) подразумевает первоначальную независимую классификацию данных по каждой модальности (текста, аудио, визуальных данных) с последующим объединением полученных решений в итоговый результат.[18] Преимущество этого подхода — отсутствие необходимости прямого объединения неоднородных признаков; каждая модальность использует наиболее подходящий для себя алгоритм классификации[3].

Гибридное слияние

Гибридное слияние сочетает методы слияния на уровне признаков и решений, использует дополнительные преимущества обоих подходов.[5]. Обычно применяется двухэтапная схема: сначала происходит слияние признаков двух модальностей, а затем полученные на этом этапе результаты объединяются с третьей модальностью путём слияния на уровне решений[19][20].

Применение

Подобно текстовому анализу тональности, мультимодальный анализ используется для построения различных рекомендательных систем, например для анализа пользовательских видеообзоров фильмов[5] и общих обзоров товаров[21], для предсказания й оценки клиентских мнений и формирования соответствующих рекомендаций по продуктам или услугам[22]. Мультимодальный анализ также важен для развития виртуальных ассистентов с использованием методов обработки естественного языка (NLP) и машинного обучения[4]. В здравоохранении мультимодальный анализ тональности может применяться для обнаружения состояний, таких как стресс, тревога или депрессия[7]. Анализ роликов новостных программ с точки зрения выражения тональности является сложной задачей, поскольку репортеры часто прибегают к нейтральной окраске высказываний[23].

Примечания