GPT-4

GPT-4 — большая языковая модель, разработанная компанией OpenAI, четвёртое поколение в серии GPT. Данная модель обладает возможностями, превышающими её предшественников GPT-3.5 и GPT-3, а также была дополнена версией GPT-4V, способной обрабатывать изображения помимо текста. Технические детали и параметры модели, такие как точный размер, OpenAI официально не раскрывает[1].

Ранняя версия GPT-4 была интегрирована корпорацией Microsoft в Bing Chat в феврале 2023 года, а сам GPT-4 стал доступен в ChatGPT в марте 2023 года[2] и был удалён из ChatGPT в 2025 году[3], но по-прежнему доступен через API OpenAI[4]. Главной особенностью архитектуры GPT-4 является предварительное обучение на огромном объёме текстовых данных, последующая настройка через обратную связь от человека (RLHF) и адаптация под выравнивание с человеческими целями.

Общие сведения
GPT-4
Тип Мультимодальная, большая языковая модель, Генеративный предварительно обученный трансформер, фреймворк-модель
Разработчик OpenAI
Написана на Python
Первый выпуск 14 марта 2023
Последняя версия gpt-4-turbo-2024-04-09 (9 апреля 2024)
Лицензия проприетарная
Сайт openai.com/gpt-4 (англ.)

Предпосылки

OpenAI представила первую модель GPT (GPT-1) в 2018 году, где была реализована трансформерная архитектура и обучение на большом корпусе книг[5].[6] Год спустя был анонсирован GPT-2, а в 2020 — GPT-3, превосходящий прежние модели по числу параметров более чем в 100 раз[7].[8] По слухам, в GPT-4 может содержаться до 1,76 трлн параметров, однако официальных подтверждений OpenAI по этому поводу нет[9].

Возможности

По заявлению OpenAI, GPT-4 более надёжен, креативен и способен воспринимать тонкие инструкции значительно лучше, чем GPT-3.5[10]. Модель представлена в версиях с контекстным окном 8 192 и 32 768 токенов, что существенно превышает лимиты ранее выпущенных моделей[11].

В отличие от своих предшественников, GPT-4 — мультимодальная модель, способная принимать на вход как текст, так и изображения[12]. Это позволяет описывать содержание изображений, интерпретировать графики, а также обрабатывать экзаменационные задания с иллюстрациями и прочими визуальными материалами[13]. Кроме того, GPT-4 может взаимодействовать с пользователями при помощи устной речи и интерпретировать фото, предоставляя рекомендации или ответы на основе изображений[14].

OpenAI внедрила возможность управления стилем и задачей GPT-4 через так называемое «системное сообщение», которое задаёт тон и поведение модели. Модель может, к примеру, отвечать в стиле шекспировского пирата или выводить результат в формате JSON, следуя заданным указаниям[13].

GPT-4 поддерживает интеграцию с внешними интерфейсами и API[15]. Благодаря этому возможна автоматизация запросов, генерация изображений и обработка веб-страниц сверх обычных текстовых задач.

Среди прочих применений отмечается помощь в программировании, анализе и генерации кода, включая перенос между языками, а также сокращение числа уязвимостей в генерируемом коде по сравнению с другими решениями[16].

В ноябре 2023 года была анонсирована модель GPT-4 Turbo с увеличенным контекстом до 128K токенов и сниженной стоимостью использования[17].[18]

Результаты на стандартизированных тестах

GPT-4 демонстрирует высокие баллы на стандартизированных экзаменах. По данным OpenAI, модель получила 1410 на SAT (94-й перцентиль), 163 на LSAT (88-й перцентиль) и 298 на американском экзамене на правовую практику (Uniform Bar Exam, 90-й перцентиль)[19]. Модель также преодолела экзамены в области онкологии, инженерии[20] и пластической хирургии[21].

Применения в медицине

Исследования показали, что GPT-4 без специализированных подсказок смог превысить проходной балл на экзамене USMLE более чем на 20 пунктов и превзошёл как модели общего назначения (GPT-3.5), так и специализированные медицинские модели (Med-PaLM). Тем не менее, доклады подчёркивают риск появления недостоверных медицинских рекомендаций и «галлюцинаций»[22]. Также отмечалось успешное применение GPT-4 для аннотирования типов клеток по данным РНК-секвенирования.

В апреле 2023 года Microsoft и Epic Systems объявили о внедрении решений на базе GPT-4 в области здравоохранения для работы с вопросами пациентов и анализа медицинских записей[23].

GPT-4o

13 мая 2024 года OpenAI представила модель GPT-4o («о» от «omni»), преемника GPT-4 с возможностью мгновенной обработки и генерации текста, аудио и изображений в реальном времени. GPT-4o характерна улучшенной скоростью отклика, лучшей поддержкой неанглийских языков и расширенными визуально-аудиальными возможностями. В отличие от GPT-4, GPT-4o стала доступна и для бесплатных пользователей ChatGPT[24].

Ограничения

Подобно предыдущим моделям, GPT-4 склонна к генерации недостоверных данных (галлюцинациям), выдавая информацию, которой нет среди обучающих материалов или противоречащую запросу пользователя[25]. Кроме этого, механизм объяснения решений моделей непрозрачен: объяснения, выдаваемые по запросу, формируются постфактум и не обязательно отражают реальный внутренний процесс принятия решений[26].

Тесты показали, что на задачах абстрактного визуального мышления (ConceptARC) модель уступает специализированным решениям и человеку[27].

Смещения и выравнивание

GPT-4 обучалась в два этапа: сначала — на больших корпусах интернета, затем — с участием оценки человеком (reinforcement learning from human feedback, RLHF). Алгоритмы специально модифицированы для отказа от выполнения определённых видов запросов, которые OpenAI считает опасными или вредоносными.

Исследования Microsoft указывают на возможные когнитивные смещения (confimation bias, «эффект якоря» и др.) внутри работы модели[26].

Обучение

undefined

OpenAI не раскрыла технических характеристик GPT-4; технический отчёт намеренно не указывает ни размер модели, ни архитектуру, ни параметры обучения, ни железо, использовавшееся для тренировки и вывода. Компания объясняет закрытость защитой коммерческих интересов и вопросами безопасности[29]. По заявлению Сэма Альтмана, стоимость обучения GPT-4 превысила 100 млн долларов[30]. Ряд журналистских расследований называет возможное число параметров в GPT-4 около 1 триллиона[31].

Выравнивание и тестирование

Перед публичным релизом OpenAI организовала внутренний аудит GPT-4 с участием отдельных экспертных команд (red teams) для обнаружения уязвимостей[32]. В рамках подобных усилий модель специально дообучалась отказываться от опасных или вредоносных инструкций с использованием самого GPT-4 в качестве классификатора, оценивающего выдаваемые ответы по определённой шкале[29].

Использование

ChatGPT

Расширенная версия ChatGPT Plus работает на базе GPT-4 и доступна по подписке[1].[33] Через API OpenAI GPT-4 предоставляется платным клиентам; стоимость зависит от размера контекстного окна[34].

В апреле 2025 года OpenAI заявила, что GPT-4 будет заменена на GPT-4o в ChatGPT, однако останется доступна через API[35].

Microsoft Copilot

Microsoft Copilot (ранее Bing Chat) использует GPT-4 в качестве ядра и интегрирован в поисковик Microsoft Bing и браузер Microsoft Edge[36]. Copilot поддерживает создание изображений и общения на различных языках. GitHub Copilot X также работает на основе GPT-4[37].

Другие применения

  • Duolingo использует GPT-4 для объяснения ошибок и ведения тренировочных диалогов на платной подписке «Duolingo Max»[38].
  • Правительство Исландии использует GPT-4 для поддержки и сохранения исландского языка[39].
  • Khan Academy использует GPT-4 как чат-бот-репетитор Khanmigo[40].
  • Be My Eyes использует GPT-4 для распознавания изображений и помощи людям с нарушениями зрения[41].
  • Viable использует GPT-4 для анализа текстовых данных клиентской поддержки[42].
  • Stripe интегрирует GPT-4 в свою документацию для разработчиков[43].
  • AutoGPT и You.com используют GPT-4 для самостоятельного веб-поиска, программирования и расширенного взаимодействия на основе текста и изображений.

Восприятие

По мнению ряда экспертов и СМИ, GPT-4 произвела впечатление на профессиональное сообщество благодаря заметному улучшению в понимании, аргументации и генерации кода[44].

Некоторые ранние версии GPT-4, до RLHF-настройки, были склонны выполнять опасные или неэтичные инструкции в промптах[45].

В ряде исследований и публикаций обращается внимание на закрытость GPT-4 по сравнению с предыдущими версиями, что ограничивает возможности независимой научной оценки и изучения смещений модели[46].[47]

Примечания