OpenSMILE
openSMILE — программное обеспечение с открытым доступом к исходному коду для автоматического извлечения признаков из звуковых сигналов и классификации речевых и музыкальных сигналов. Аббревиатура SMILE расшифровывается как «Speech & Music Interpretation by Large-space Extraction» («Интерпретация речи и музыки с помощью извлечения в большом пространстве»). Программа преимущественно используется для автоматического распознавания эмоций и широко применяется в исследованиях в области аффективных вычислений. Проект openSMILE существует с 2008 года и поддерживается немецкой компанией audEERING GmbH с 2013 года. openSMILE предоставляется бесплатно для научных исследований и личного пользования по лицензии с открытым исходным кодом (source-available). Для коммерческого использования компания audEERING предлагает индивидуальные лицензионные условия.
Что важно знать
| openSMILE | |
|---|---|
| Тип | машинное обучение |
| Разработчик | audEERING GmbH |
| Написана на | C++ |
| Первый выпуск | сентябрь 2010 |
| Аппаратные платформы | Linux, macOS, Windows, Android, iOS |
| Последняя версия | 3.0.1 (4 января 2022) |
| Лицензия | исходный код доступен, проприетарная |
| Сайт | audeering.com/opensmile/ |
Области применения
openSMILE применяется как в академических, так и в коммерческих целях для автоматического анализа речевых и музыкальных сигналов в реальном времени. В отличие от систем автоматического распознавания речи, которые извлекают текстовое содержимое из речевого сигнала, openSMILE способен распознавать характеристики конкретного фрагмента речи или музыки. К примеру, среди таких характеристик человеческой речи могут быть эмоции[1], возраст, пол, особенности личности, а также состояния, такие как депрессия, алкогольное опьянение или патологические нарушения голоса. Программа также включает технологии для автоматической классификации музыки — распознавание эмоционального состояния музыкального произведения, определение участков припева, тональности, аккордов, темпа, размера, танцевального типа и жанра.
Набор инструментов openSMILE используется в качестве эталона во многих исследовательских конкурсах, таких как Interspeech ComParE[2], AVEC[3], MediaEval[4] и EmotiW[5].
История
Проект openSMILE был начат в 2008 году Флорианом Айбеном (Florian Eyben), Мартином Вёлльмером (Martin Wöllmer) и Бьёрном Шуллером в Техническом университете Мюнхена в рамках исследовательского проекта SEMAINE Европейского союза. Целью SEMAINE было создание виртуального агента с эмоциональным и социальным интеллектом. В этой системе openSMILE применялся для анализа речи и эмоций в режиме реального времени. Финальный релиз программного обеспечения SEMAINE был основан на openSMILE версии 1.0.1.
В 2009 году был опубликован инструмент для распознавания эмоций openEAR, основанный на openSMILE. Аббревиатура «EAR» расшифровывается как «Emotion and Affect Recognition» («распознавание эмоций и аффекта»).
В 2010 году была опубликована openSMILE версии 1.0.1; инструмент был представлен и получил награду на конкурсе Open-Source Software Challenge конференции ACM Multimedia.
В период с 2011 по 2013 год технологии openSMILE были расширены и улучшены Флорианом Айбеном и Феликсом Венингером (Felix Weninger) в рамках их докторских диссертаций в Техническом университете Мюнхена. Программный пакет также был использован в проекте ASC-Inclusion, финансируемом Европейским союзом. В рамках этого проекта Эрик Марки (Erik Marchi) доработал openSMILE для обучения эмоциональной выразительности детей с аутизмом на основе автоматического распознавания и визуализации эмоций.
В 2013 году компания audEERING приобрела права на исходный код у Технического университета Мюнхена, и была опубликована версия 2.0 под исследовательской лицензией с открытым исходным кодом.
По состоянию на 2016 год openSMILE был загружен более 50 000 раз по всему миру и стал стандартным инструментом для распознавания эмоций.
Награды
В 2010 году openSMILE был удостоен награды на конкурсе Open Source в рамках конференции ACM Multimedia. Этот инструмент широко применяется в научных публикациях по автоматическому распознаванию эмоций. openSMILE[6] и его расширение openEAR[7] были процитированы в более чем 1000 научных публикаций по состоянию на сегодняшний день.


