Sora

Sora — модель искусственного интеллекта, предназначенная для генерации Full HD-видео по короткому текстовому описанию — промпту. Разработана компанией OpenAI, ранее выпустившей такие продукты, как DALL-E и ChatGPT. Выпущена 15 февраля 2024 года[1].

24 марта 2026 года в OpenAI сообщили о закрытии ИИ-модели Sora[2].

Что важно знать
Sora
Тип Генеративный искусственный интеллект
Автор OpenAI
Разработчик OpenAI
Первый выпуск 15 февраля 2024
Сайт openai.com/sora (англ.)

Предыстория

Первые крупные разработки в области генерации видео по текстовому описанию (text-to-video) были опубликованы в 2022 году. Тогда компаниями Meta и Google независимо друг от друга были представлены модели Make-A-Video, Phenaki и Imagen Video, позволяющие создавать короткие видеоролики по текстовому описанию и/или статичной картинке[3]. Качество таких видео было невысоким. Так, Phenaki позволяла создавать видео с базовым разрешением 128×128 пикселей[4], Imagen — 1280×768 и максимальной продолжительностью 5,3 секунды[5]. В январе 2024 года Google представила модель Lumiere, позволявшую генерировать видео в разрешении 512×512 пикселей и продолжительностью также до 5 секунд[6].

Описание

15 февраля 2024 года компания OpenAI официально представила модель Sora. Она представляет собой диффузионную модель, также создающую видео по текстовому описанию. Процесс генерации начинается со случайного шума, который постепенно преобразуется в изображение. Так же как и GPT, Sora имеет архитектуру трансформера, однако для представления информации вместо токенов использует пространственно-временные патчи — фрагменты, содержащие информацию о частях кадров и их изменении во времени[3].

Согласно заявлению производителя, Sora умеет генерировать видеоролики с максимальным разрешением 1920×1080 и максимальной продолжительностью 1 минута, что превосходит по качеству все предыдущие модели данного типа[3]. В качестве демонстрации OpenAI представил несколько сгенерированных роликов, изображающих, в частности, гуляющих по заснеженному Токио людей, сидящего около свечи пушистого монстра и нескольких мамонтов, идущих через заснеженный луг[7]. Помимо генерации видео по тексту, в качестве возможностей Sora заявлены дополнение уже существующих видеороликов и анимирование статичных изображений, изменение направления воспроизведения и склейка видеофрагментов между собой[3].

При высоком качестве генерации контента Sora иногда может допускать ошибки. Так, производитель в числе проблем нейросети называет неточное воспроизведение физики в сложных сценах. Также отмечаются проблемы с пониманием причинно-следственных связей: например, отсутствие следов зубов на печенье после того, как его надкусил человек. Кроме того, иногда у модели возникает путаница с ориентацией в пространстве и с воспроизведением длительных событий[3][8].

Sora недоступна для широкого использования[9]. С 15 февраля 2024 доступом к разработке могут воспользоваться тестировщики и специалисты по кибербезопасности для поиска уязвимостей, а также профессионалы в области визуального искусства[8].

24 марта 2026 года в OpenAI сообщили о закрытии Sora. На этом фоне компания Disney расторгла соглашение, в рамках которого планировала инвестировать в OpenAI один миллиард долларов США. Проект предусматривал лицензирование более 200 персонажей из каталогов Disney, Marvel, Pixar и «Звёздных войн», чтобы пользователи Sora могли генерировать ролики с их участием[10].

Реакция

Кейд Метц, обозреватель The New York Times, назвал опубликованные результаты работы Sora «потрясающими» и сравнил их с кадрами из голливудского фильма[11]. Похожее мнение высказал и Wired, отметив также, что сгенерированные Sora видео всё же имеют свои недостатки[7].

Одним из главных опасений, высказываемых в адрес Sora, является потенциальная возможность использования технологии в целях дезинформации. Особенно опасным сценарием NBC News назвал создание высококачественных фейков для предвыборной пропаганды или в условиях глобальных конфликтов. Федеральная торговая комиссия США предложила объявить незаконной генерацию контента с участием реальных людей при помощи искусственного интеллекта. По словам OpenAI, компания работает над созданием инструментов, которые будут специальным образом помечать и распознавать видео, созданные ИИ, для предотвращения недобросовестного использования разработки[6][9].

Ещё одной проблемой, связанной с Sora, является возможное нарушение авторских прав в сгенерированных видео. По словам Билли Пиблса, одного из участников проекта, для обучения модели используется в том числе общедоступный контент. Ранее против OpenAI уже подавались судебные иски, при рассмотрении которых следует выяснить, является ли допустимым использование защищённого авторским правом общедоступного контента для обучения ИИ[7].

Аналоги

20 мая 2025 года компания Google презентовала на конференции I/O 2025 генератор видео со звуком Veo 3[12].

Примечания