Материал из РУВИКИ — свободной энциклопедии

OmniHuman

OmniHuman-1 AI
Изображение логотипа
Тип частная компания
Основание 4 февраля 2025
Основатели ByteDance
Отрасль Искусственный интеллект
Сайт omnihuman.cc

OmniHuman-1 — система искусственного интеллекта от китайской компании ByteDance, представленная 4 февраля 2025 года. Сквозная мультимодальная структура предназначена для генерации персонализированных реалистичных видеороликов на основе одной фотографии и аудиофрагмента (например, речи или вокала). Возможно создание видео любой длительности с настраиваемым аспектным соотношением и пропорциями тела[1].

Технологии анимации человека (генерации говорящего на основе аудиодорожки) были распространены и до выхода OmniHuman-1, однако подобные дипфейки выглядели неестественно и содержали артефакты цифрового изображения, несовпадение мимики и другие факторы, позволяющие понять, что видео сгенерировано ИИ[2].

Архитектура модели и обучения

Инженеры ByteDance использовали для обучения OmniHuman-1 более 18 700 часов видеоматериалов с участием людей и воспользовались новым методом под названием «всеобщие условия». Он включает в учебный процесс разнообразные входные данные: текст, аудиосигналы и двигательные паттерны[3].

При этом команда ByteDance сообщает о продолжении работы над системой, которая сейчас ограничена, например, исходными данными. Так, низкое качество загружаемой фотографии скажется на реалистичности готового видео. Также ИИ испытывает трудности с генерацией определённых поз и жестов[4].

Лекция А.Эйнштейна, сгенерированная OmniHuman

Технические особенности

[править | править код]

Отличительной особенностью является то, что OmniHuman-1 способен генерировать видеоролики в полный рост. Жестикуляция и мимика соответствует произнесённой речи (предыдущие версии ИИ могли анимировать лишь лица или верхнюю часть тела). Поддерживает несколько форм ввода движения:

  • Управление звуком — генерирует синхронизированные движения губ и жесты на основе речевого ввода;
  • На основе существующего видео — воспроизводит движение из эталонного видео;
  • Мультимодальное слияние — объединяет аудио- и видеосигналы для точного управления различными частями тела[5].

Оценка OmniHuman-1 по сравнению с ведущими моделями анимации (включая Loopy, CyberHost и DiffTED):

  • Точность синхронизации губ (чем выше, тем лучше):
    • OmniHuman-1: 5.255
    • Loopy: 4.814
    • CyberHost: 6.627
  • Расстояние Фреше (FVD) (чем меньше, тем лучше):
    • OmniHuman-1: 15.906
    • Loopy: 16.134
    • DiffTED: 58.871
  • Выразительность жестов (HKV metric) :
    • OmniHuman-1: 47.561
    • CyberHost: 24.733
    • DiffGest: 23.409
  • Точность жеста руки (HKC) (чем выше, тем лучше):
    • OmniHuman-1: 0,898
    • CyberHost: 0.884
    • DiffTED: 0.769[5]

Примечания

[править | править код]
  1. Omnihuman-lab (англ.). omnihuman-lab.github.io (5 февраля 2025). Дата обращения: 5 февраля 2025.
  2. OmniHuman-1 от ByteDance: новая эпоха дипфейков или угроза безопасности?, NEURO-AI (4 февраля 2025). Дата обращения: 5 февраля 2025.
  3. Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий, Se7en.ws (5 февраля 2025). Дата обращения: 5 февраля 2025.
  4. Wiggers, Kyle. Deepfake videos are getting shockingly good, TechCrunch (4 февраля 2025). Дата обращения: 5 февраля 2025.
  5. 1 2 ByteDance Proposes OmniHuman-1: An End-to-End Multimodality Framework Generating Human Videos based on a Single Human Image and Motion Signals. MarkTechPost (4 февраля 2025). Дата обращения: 5 февраля 2025.