GPT4-Chan

GPT4-Chan — искусственная интеллектуальная модель, разработанная и опубликованная исследователем ИИ и YouTube-блогером Янником Кильхером в июне 2022 года. Эта большая языковая модель может генерировать текст на основе заданного ввода; для обучения использовалась дообученная версия GPT-J на корпусе из миллионов сообщений раздела /pol/ анонимного форума 4chan, известного своим размещением оскорбительного и экстремистского контента.

Модель обучилась воспроизводить стиль и тональность пользователей /pol/, генерируя тексты, зачастую преднамеренно оскорбительные для различных групп (расистские, сексистские, гомофобные и т. п.) и нигилистические по содержанию. Кильхер осуществил развёртывание модели непосредственно на самом /pol/, где она взаимодействовала с другими пользователями без раскрытия своей природы. Впоследствии модель также была опубликована на платформе Hugging Face для распространения ИИ-моделей, однако впоследствии была удалена[2].

Проект вызвал критику и обсуждение в профессиональном сообществе ИИ. Звучали вопросы о этичности, законности и социальных последствиях создания и распространения подобных моделей. Среди проблем, обсуждаемых в связи с GPT4-Chan, выделяют потенциальный вред от распространения языка вражды, ответственность разработчиков и платформ, необходимость регулирования и контроля ИИ, а также роль открытости и прозрачности в исследованиях такой сложной технологии[3].

Что важно знать
GPT4-Chan
Тип Большая языковая модель, Генеративный предварительно обученный трансформер
Автор EleutherAI
Разработчик Янник Кильхер
Первый выпуск 3 июня 2022
Репозиторий github.com/yk/gpt-4chan-…
Лицензия Apache License 2.0[1]
Сайт huggingface.co/ykilcher/…

Разработка

Разработка GPT4-Chan началась в мае 2022 года, когда Кильхер анонсировал проект на своём YouTube-канале. Он отметил, что до появления ChatGPT хотел создать большую языковую модель, способную генерировать реалистичные и связные тексты в стиле /pol/ — одного из самых одиозных онлайн-сообществ[4].

Вдохновлённый успехом GPT-3 от OpenAI и открытой моделью GPT-J с сопоставимыми характеристиками (разработкой коллектива EleutherAI), Кильхер выбрал в качестве основы GPT-J и дообучил её на большом корпусе сообщений /pol/. Корпус, известный как Raiders of the Lost Kek, включал свыше 100 миллионов постов, опубликованных в период с июня 2016 по ноябрь 2019 года.

После подготовки датасета Кильхер дообучил модель на данных 4chan. Он также продемонстрировал спектр примеров генерации: от политических мнений, теорий заговора, шуток, оскорблений и угроз, до более креативных и абсурдных текстов (стихи, рассказы, песни, программный код). Кильхер отметил, что его впечатлила беглость и разнообразие сгенерированных текстов, а также было любопытно, как такая система будет проявлять себя в реальном общении с /pol/-пользователями[5].

Выпуск

В июне 2022 года Кильхер запустил свою модель непосредственно на /pol/, используя специально созданного бота для публикаций и ответов в темах. Личность модели не раскрывалась, система работала автономно, без какого-либо вмешательства человека. Целью эксперимента было наблюдение за поведением бота и его влиянием на реальные обсуждения, а также испытание модели на устойчивость в условиях органической среды, включая троллинг, флеймы, провокации и модерацию[6].

Параллельно Кильхер выложил модель для свободного доступа на платформе Hugging Face — желая поделиться работой с исследовательским сообществом и публично обсудить этические аспекты. Модель была доступна через веб-интерфейс и API, а её исходный код и данные опубликовал в открытом репозитории на GitHub[7].

Контроверсия

Публичный запуск GPT4-Chan вызвал широкий общественный резонанс. На форуме /pol/ публикации и ответы модели привлекли к себе большое внимание и вызвали оживлённую реакцию — пользователи не подозревали искусственный характер собеседника. Некоторые участники отмечали у бота интеллект, чувство юмора и креативность, другие, напротив, критиковали за невежество, нелогичность и абсурд. Были и попытки троллинга, провокаций и проверок модели с разнообразными, в том числе провокационными вопросами, что в ряде случаев приводило к ярким и агрессивным спорам[8].

На Hugging Face страница модели получила множество запросов, отзывов и комментариев. Однако, на фоне возникшей вокруг проекта полемики, доступ к GPT4-Chan на платформе был ограничен, а затем и полностью закрыт из-за опасений возможного вреда. Примечательно, что в обсуждения вмешался лично генеральный директор платформы Клеман Деланг, что крайне редко случается в практике модерации контента[9].

Выход GPT4-Chan в публичное пространство получил широкий отклик в СМИ и социальных сетях. Видеоролик на YouTube собрал значительное число просмотров и обсуждений. Кроме того, петиция с осуждением развёртывания GPT4-Chan набрала свыше 300 подписей от экспертов по технологиям[10].

Примечания