GPT-4o

GPT-4o (буква «o» — от английского omni) — многоязычная мультимодальная генеративная предварительно обученная трансформер-модель, разработанная компанией OpenAI и выпущенная в мае 2024 года[1]. GPT-4o может воспринимать и генерировать текст, изображения и аудио[2][3].

После запуска GPT-4o была доступна бесплатно в ChatGPT, при этом у платных подписчиков были увеличены лимиты использования[4]. В августе 2025 года GPT-4o была удалена из ChatGPT после выхода GPT-5, однако под давлением пользователей OpenAI вскоре вернула её для платных подписчиков[5].

Функции генерации аудио в GPT-4o используются в режиме Advanced Voice Mode[6]. 18 июля 2024 года OpenAI выпустила GPT-4o mini — облегчённую версию, пришедшую на смену GPT-3.5 Turbo в интерфейсе ChatGPT[7]. Возможность генерации изображений появилась в марте 2025 года, когда GPT-4o заменила DALL-E 3 в ChatGPT[8].

Что важно знать
GPT-4o
Тип мультимодальная система, Большая языковая модель, Генеративный предварительно обученный трансформер, Фундаментальная модель
Разработчик OpenAI
Первый выпуск май 2024
Бета-версия ChatGPT-4o-latest (2025-03-26) (26 марта 2025)
Лицензия проприетарная
Сайт openai.com/index/hello-g…
GPT Image 1
Тип Генерация изображений по тексту
Разработчик OpenAI
Первый выпуск 25 марта 2025
Лицензия проприетарная
Сайт openai.com/index/… (англ.)

Предыстория

Несколько версий GPT-4o первоначально были тайно размещены под разными именами в соревнованиях LMSYS Chatbot Arena как три разных модели: gpt2-chatbot, im-a-good-gpt2-chatbot и im-also-a-good-gpt2-chatbot[9]. 7 мая 2024 года генеральный директор OpenAI Сэм Альтман опубликовал в соцсети X твит «im-a-good-gpt2-chatbot», что многие расценили как подтверждение тестирования новых моделей OpenAI[10][11].

Возможности

На момент релиза в мае 2024 года GPT-4o продемонстрировала передовые результаты в распознавании голоса, мультиязычных и визуальных тестах, установила рекорды по распознаванию и переводу устной речи[12][13][14]. На тесте MMLU (Massive Multitask Language Understanding) модель набрала 88,7 баллов против 86,5 у GPT-4[15]. В отличие от предшественников (GPT-3.5 и GPT-4), для работы с аудио не нужны промежуточные модели: GPT-4o поддерживает режим голос-голос напрямую[15] Режим Advanced Voice Mode вышел с задержкой, в сентябре 2024 года для подписчиков Plus и Team.[16]. 1 октября 2024 года представлено Realtime API[17].

На старте GPT-4o поддерживала более 50 языков[1], что, по данным OpenAI, покрывает более 97 % всех носителей[18]. Мира Мурати публично продемонстрировала перевод с итальянского на английский и обратно на презентации 13 мая 2024 года. Новый токенизатор[19] расходует меньше токенов в ряде языков, в особенности для не-латинских алфавитов, что делает работу с ними дешевле[15]

Знания GPT-4o основаны на данных до октября 2023 года,[20][21]. однако при необходимости может привлекать актуальную информацию из Интернета. Максимальный контекст составляет 128 тысяч токенов[20].

Корпоративная настройка

В августе 2024 года OpenAI объявила о новой возможности для корпоративных клиентов — кастомизации GPT-4o под задачи компании с помощью загрузки внутренних данных (fine-tuning). Такой подход позволяет адаптировать модель для конкретных бизнес-процессов, автоматизации поддержки или экспертных систем. Ранее fine-tuning поддерживался только для более простой GPT-4o mini[22][23].

Обучение кастомизированной модели проводится на серверах OpenAI и длится от одного до двух часов. Запуск корпоративного fine-tuning нацелен на снижение трудозатрат и увеличение внедряемости ИИ-решений в бизнесе[22][24].

GPT-4o mini

18 июля 2024 года OpenAI представила облегчённую и более дешёвую версию — GPT-4o mini[25].

По заявлениям компании, низкая стоимость GPT-4o mini особенно выгодна бизнесу и разработчикам, интегрирующим модель в сервисы с большим количеством API-запросов. API стоит $0.15 за миллион входных токенов и $0.6 за миллион выходных токенов против $2.50 и $10 соответственно для полной GPT-4o[26]. Модель превосходит GPT-3.5 Turbo и примерно на 60 % дешевле её, что позволило mini заменить её в ChatGPT[25]. После fine-tuning стоимость удваивается: $0.3 за миллион входных токенов и $1.2 за миллион выходных токенов[26].

GPT Image 1

25 марта 2025 года OpenAI выпустила собственную модель генерации изображений, интегрированную в GPT-4o и ставшую наследником DALL-E 3. Впоследствии она получила название GPT Image 1 (gpt-image-1) и стала доступна в API 23 апреля. Для бесплатных пользователей запуск был отложен[27]. Использование функции вскоре было ограничено из-за высокой нагрузки: Сэм Альтман заявил, что «[их] GPU плавились» из-за массового спроса[28]. По данным компании, более 130 миллионов пользователей сгенерировали свыше 700 миллионов изображений за первую неделю после релиза[29].

Споры

Голосовое сходство со Скарлетт Йоханссон

При запуске в GPT-4o было пять голосовых вариантов: Breeze, Cove, Ember, Juniper и Sky. Сходство голоса Sky с актрисой Скарлетт Йоханссон быстро привлекло внимание. 14 мая издание Entertainment Weekly задало вопрос, было ли это сходство намеренным[30]. 18 мая 2024 года муж Йоханссон, Колин Джост, пошутил о ситуации в эфире Saturday Night Live[31]. 20 мая OpenAI временно отключила голос Sky, мотивируя это поступающими вопросами и обещая разобраться[32].

Скарлетт Йоханссон известна по фильму Она (2013), где озвучивала виртуального ассистента — ИИ с женским голосом. Накануне релиза GPT-4o Сэм Альтман опубликовал твит с единственным словом: «her»[33][34].

По заявлению OpenAI, для каждой голосовой записи был приглашён отдельный актёр, и голос Sky — это не имитация Йоханссон, а естественный голос другой актрисы[32]. Технический директор Мира Мурати сообщила, что ей пришлось специально переслушать голос Йоханссон для проверки сходства. OpenAI утверждает также, что актёров для записи голосов начали подбирать ещё до того, как связывались с Йоханссон[34][35].

21 мая Йоханссон заявила, что OpenAI не раз предлагала ей лицензионное соглашение, начиная за 9 месяцев до релиза, но она отказалась. По её словам, она была «шокирована, рассержена и не могла поверить, что Альтман выбрал голос настолько похожий на её, что не заметили ни друзья, ни СМИ». Она также подняла вопрос необходимости правовой защиты творческих работ при развитии ИИ и потребовала раскрыть детали происхождения голоса Sky[34].[36]

Обозреватели сравнили скандал с прошлым судебным спором Йоханссон и The Walt Disney Company из-за проката Чёрная вдова[37]; сумма, по слухам, составила около $40 млн[38].

Также 21 мая обозревательница The Washington Post Шира Овиде внесла ситуацию с голосом в топ неудачных PR-ходов года — «игнорирование возражений и сходства с голосом Йоханссон» она поставила на 6-е место[39]. 24 мая Дерек Робертсон из Politico назвал ситуацию «массовым резонансом», отметив, что обращение к образу ИИ-ассистента из «Она» — «вряд ли поможет OpenAI завоевать доверие общественности в США»[40]

Фильтр в стиле Studio Ghibli

В марте 2025 года генерация иллюстраций GPT-4o (в дальнейшем — GPT Image 1) в стилистике Studio Ghibli стала вирусной в соцсетях[42]. Сэм Альтман поддержал тренд, сменив свою аватарку на «стилизацию под Ghibli»[43][44]. Официальный аккаунт Белого дома разместил подобную иллюстрацию на тему ареста мигранта Виrгинии Басоры-Гонсалес после обвинения в торговле фентанилом[41][45][46]. Североамериканский дистрибутор GKids отметил совпадение тренда с перевыпуском фильма Принцесса Мононоке в IMAX[47].

Угодничество и деградация диалогов

В апреле 2025 года OpenAI отменила обновление GPT-4o из-за всплеска угодничества (sycophancy): модель стала чрезмерно уступчивой и «поддакивающей» даже вредным идеям[48].

Удаление GPT-4o после запуска GPT-5

7 августа 2025 года была выпущена GPT-5, при этом предыдущие модели GPT, включая GPT-4o, стали недоступны в ChatGPT для большинства пользователей[49], кроме платных подписчиков Pro[50]. Пользователи выразили недовольство, поскольку использовали разные GPT для разных задач, а новый механизм выбора голосов GPT-5 лишил их точного контроля[51]. Кроме того, многие отмечали, что у GPT-4o тон был «тёплее», а у GPT-5 — «плоский», «неоригинальный» и похожий на «перегруженного секретаря»[52][53].

В ответ Сэм Альтман пообещал вернуть опцию выбора GPT-4o для подписчиков Plus и пообещал учитывать обратную связь при сроках поддержки старых моделей[51][54]. Он также отметил: «Мы явно недооценили, насколько важны некоторые особенности GPT-4o для пользователей, даже если GPT-5 лучше по большинству параметров»[55]. «В долгосрочной перспективе мы будем развивать механизмы кастомизации, так как не существует „единой“ модели для всех; мы уже ведём исследования в области индивидуализации ИИ»[52]. 13 августа Альтман сообщил о работе над тем, чтобы сделать стиль GPT-5 «более тёплым»[56].

Примечания