GPT-4o

GPT Image 1
GPT Image 1
Тип	Генерация изображений по тексту
Разработчик	OpenAI
Первый выпуск	25 марта 2025
Лицензия	проприетарная
Сайт	openai.com/index/… (англ.)

GPT-4o
GPT-4o
Тип	мультимодальная система, Большая языковая модель, Генеративный предварительно обученный трансформер, Фундаментальная модель
Разработчик	OpenAI
Первый выпуск	май 2024
Бета-версия	ChatGPT-4o-latest (2025-03-26) (26 марта 2025)
Лицензия	проприетарная
Сайт	openai.com/index/hello-g…

GPT-4o
GPT-4o
Тип	мультимодальная система, Большая языковая модель, Генеративный предварительно обученный трансформер, Фундаментальная модель
Разработчик	OpenAI
Первый выпуск	май 2024
Бета-версия	ChatGPT-4o-latest (2025-03-26) (26 марта 2025)
Лицензия	проприетарная
Сайт	openai.com/index/hello-g…
GPT Image 1
Тип	Генерация изображений по тексту
Разработчик	OpenAI
Первый выпуск	25 марта 2025
Лицензия	проприетарная
Сайт	openai.com/index/… (англ.)

GPT-4o (буква «o» — от английского omni) — многоязычная мультимодальная генеративная предварительно обученная трансформер-модель, разработанная компанией OpenAI и выпущенная в мае 2024 года^[1]. GPT-4o может воспринимать и генерировать текст, изображения и аудио^[2]^[3].

После запуска GPT-4o была доступна бесплатно в ChatGPT, при этом у платных подписчиков были увеличены лимиты использования^[4]. В августе 2025 года GPT-4o была удалена из ChatGPT после выхода GPT-5, однако под давлением пользователей OpenAI вскоре вернула её для платных подписчиков^[5].

Функции генерации аудио в GPT-4o используются в режиме Advanced Voice Mode^[6]. 18 июля 2024 года OpenAI выпустила GPT-4o mini — облегчённую версию, пришедшую на смену GPT-3.5 Turbo в интерфейсе ChatGPT^[7]. Возможность генерации изображений появилась в марте 2025 года, когда GPT-4o заменила DALL-E 3 в ChatGPT^[8].

Несколько версий GPT-4o первоначально были тайно размещены под разными именами в соревнованиях LMSYS Chatbot Arena как три разных модели: gpt2-chatbot, im-a-good-gpt2-chatbot и im-also-a-good-gpt2-chatbot^[9]. 7 мая 2024 года генеральный директор OpenAI Сэм Альтман опубликовал в соцсети X твит «im-a-good-gpt2-chatbot», что многие расценили как подтверждение тестирования новых моделей OpenAI^[10]^[11].

На момент релиза в мае 2024 года GPT-4o продемонстрировала передовые результаты в распознавании голоса, мультиязычных и визуальных тестах, установила рекорды по распознаванию и переводу устной речи^[12]^[13]^[14]. На тесте MMLU (Massive Multitask Language Understanding) модель набрала 88,7 баллов против 86,5 у GPT-4^[15]. В отличие от предшественников (GPT-3.5 и GPT-4), для работы с аудио не нужны промежуточные модели: GPT-4o поддерживает режим голос-голос напрямую^[15] Режим Advanced Voice Mode вышел с задержкой, в сентябре 2024 года для подписчиков Plus и Team.^[16]. 1 октября 2024 года представлено Realtime API^[17].

На старте GPT-4o поддерживала более 50 языков^[1], что, по данным OpenAI, покрывает более 97 % всех носителей^[18]. Мира Мурати публично продемонстрировала перевод с итальянского на английский и обратно на презентации 13 мая 2024 года. Новый токенизатор^[19] расходует меньше токенов в ряде языков, в особенности для не-латинских алфавитов, что делает работу с ними дешевле^[15]

Знания GPT-4o основаны на данных до октября 2023 года,^[20]^[21]. однако при необходимости может привлекать актуальную информацию из Интернета. Максимальный контекст составляет 128 тысяч токенов^[20].

Корпоративная настройка

В августе 2024 года OpenAI объявила о новой возможности для корпоративных клиентов — кастомизации GPT-4o под задачи компании с помощью загрузки внутренних данных (fine-tuning). Такой подход позволяет адаптировать модель для конкретных бизнес-процессов, автоматизации поддержки или экспертных систем. Ранее fine-tuning поддерживался только для более простой GPT-4o mini^[22]^[23].

Обучение кастомизированной модели проводится на серверах OpenAI и длится от одного до двух часов. Запуск корпоративного fine-tuning нацелен на снижение трудозатрат и увеличение внедряемости ИИ-решений в бизнесе^[22]^[24].

18 июля 2024 года OpenAI представила облегчённую и более дешёвую версию — GPT-4o mini^[25].

По заявлениям компании, низкая стоимость GPT-4o mini особенно выгодна бизнесу и разработчикам, интегрирующим модель в сервисы с большим количеством API-запросов. API стоит $0.15 за миллион входных токенов и $0.6 за миллион выходных токенов против $2.50 и $10 соответственно для полной GPT-4o^[26]. Модель превосходит GPT-3.5 Turbo и примерно на 60 % дешевле её, что позволило mini заменить её в ChatGPT^[25]. После fine-tuning стоимость удваивается: $0.3 за миллион входных токенов и $1.2 за миллион выходных токенов^[26].

25 марта 2025 года OpenAI выпустила собственную модель генерации изображений, интегрированную в GPT-4o и ставшую наследником DALL-E 3. Впоследствии она получила название GPT Image 1 (gpt-image-1) и стала доступна в API 23 апреля. Для бесплатных пользователей запуск был отложен^[27]. Использование функции вскоре было ограничено из-за высокой нагрузки: Сэм Альтман заявил, что «[их] GPU плавились» из-за массового спроса^[28]. По данным компании, более 130 миллионов пользователей сгенерировали свыше 700 миллионов изображений за первую неделю после релиза^[29].

Голосовое сходство со Скарлетт Йоханссон

При запуске в GPT-4o было пять голосовых вариантов: Breeze, Cove, Ember, Juniper и Sky. Сходство голоса Sky с актрисой Скарлетт Йоханссон быстро привлекло внимание. 14 мая издание Entertainment Weekly задало вопрос, было ли это сходство намеренным^[30]. 18 мая 2024 года муж Йоханссон, Колин Джост, пошутил о ситуации в эфире Saturday Night Live^[31]. 20 мая OpenAI временно отключила голос Sky, мотивируя это поступающими вопросами и обещая разобраться^[32].

Скарлетт Йоханссон известна по фильму Она (2013), где озвучивала виртуального ассистента — ИИ с женским голосом. Накануне релиза GPT-4o Сэм Альтман опубликовал твит с единственным словом: «her»^[33]^[34].

По заявлению OpenAI, для каждой голосовой записи был приглашён отдельный актёр, и голос Sky — это не имитация Йоханссон, а естественный голос другой актрисы^[32]. Технический директор Мира Мурати сообщила, что ей пришлось специально переслушать голос Йоханссон для проверки сходства. OpenAI утверждает также, что актёров для записи голосов начали подбирать ещё до того, как связывались с Йоханссон^[34]^[35].

21 мая Йоханссон заявила, что OpenAI не раз предлагала ей лицензионное соглашение, начиная за 9 месяцев до релиза, но она отказалась. По её словам, она была «шокирована, рассержена и не могла поверить, что Альтман выбрал голос настолько похожий на её, что не заметили ни друзья, ни СМИ». Она также подняла вопрос необходимости правовой защиты творческих работ при развитии ИИ и потребовала раскрыть детали происхождения голоса Sky^[34].^[36]

Обозреватели сравнили скандал с прошлым судебным спором Йоханссон и The Walt Disney Company из-за проката Чёрная вдова^[37]; сумма, по слухам, составила около $40 млн^[38].

Также 21 мая обозревательница The Washington Post Шира Овиде внесла ситуацию с голосом в топ неудачных PR-ходов года — «игнорирование возражений и сходства с голосом Йоханссон» она поставила на 6-е место^[39]. 24 мая Дерек Робертсон из Politico назвал ситуацию «массовым резонансом», отметив, что обращение к образу ИИ-ассистента из «Она» — «вряд ли поможет OpenAI завоевать доверие общественности в США»^[40]

Фильтр в стиле Studio Ghibli

В марте 2025 года генерация иллюстраций GPT-4o (в дальнейшем — GPT Image 1) в стилистике Studio Ghibli стала вирусной в соцсетях^[42]. Сэм Альтман поддержал тренд, сменив свою аватарку на «стилизацию под Ghibli»^[43]^[44]. Официальный аккаунт Белого дома разместил подобную иллюстрацию на тему ареста мигранта Виrгинии Басоры-Гонсалес после обвинения в торговле фентанилом^[41]^[45]^[46]. Североамериканский дистрибутор GKids отметил совпадение тренда с перевыпуском фильма Принцесса Мононоке в IMAX^[47].

Угодничество и деградация диалогов

В апреле 2025 года OpenAI отменила обновление GPT-4o из-за всплеска угодничества (sycophancy): модель стала чрезмерно уступчивой и «поддакивающей» даже вредным идеям^[48].

Удаление GPT-4o после запуска GPT-5

7 августа 2025 года была выпущена GPT-5, при этом предыдущие модели GPT, включая GPT-4o, стали недоступны в ChatGPT для большинства пользователей^[49], кроме платных подписчиков Pro^[50]. Пользователи выразили недовольство, поскольку использовали разные GPT для разных задач, а новый механизм выбора голосов GPT-5 лишил их точного контроля^[51]. Кроме того, многие отмечали, что у GPT-4o тон был «тёплее», а у GPT-5 — «плоский», «неоригинальный» и похожий на «перегруженного секретаря»^[52]^[53].

В ответ Сэм Альтман пообещал вернуть опцию выбора GPT-4o для подписчиков Plus и пообещал учитывать обратную связь при сроках поддержки старых моделей^[51]^[54]. Он также отметил: «Мы явно недооценили, насколько важны некоторые особенности GPT-4o для пользователей, даже если GPT-5 лучше по большинству параметров»^[55]. «В долгосрочной перспективе мы будем развивать механизмы кастомизации, так как не существует „единой“ модели для всех; мы уже ведём исследования в области индивидуализации ИИ»^[52]. 13 августа Альтман сообщил о работе над тем, чтобы сделать стиль GPT-5 «более тёплым»^[56].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[42]

[43]

[44]

[41]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

GPT-4o

Предыстория

Возможности

Корпоративная настройка

GPT-4o mini

GPT Image 1

Споры

Голосовое сходство со Скарлетт Йоханссон

Фильтр в стиле Studio Ghibli

Угодничество и деградация диалогов

Удаление GPT-4o после запуска GPT-5

Примечания