GPT4-Chan
GPT4-Chan — искусственная интеллектуальная модель, разработанная и опубликованная исследователем ИИ и YouTube-блогером Янником Кильхером в июне 2022 года. Эта большая языковая модель может генерировать текст на основе заданного ввода; для обучения использовалась дообученная версия GPT-J на корпусе из миллионов сообщений раздела /pol/ анонимного форума 4chan, известного своим размещением оскорбительного и экстремистского контента.
Модель обучилась воспроизводить стиль и тональность пользователей /pol/, генерируя тексты, зачастую преднамеренно оскорбительные для различных групп (расистские, сексистские, гомофобные и т. п.) и нигилистические по содержанию. Кильхер осуществил развёртывание модели непосредственно на самом /pol/, где она взаимодействовала с другими пользователями без раскрытия своей природы. Впоследствии модель также была опубликована на платформе Hugging Face для распространения ИИ-моделей, однако впоследствии была удалена[2].
Проект вызвал критику и обсуждение в профессиональном сообществе ИИ. Звучали вопросы о этичности, законности и социальных последствиях создания и распространения подобных моделей. Среди проблем, обсуждаемых в связи с GPT4-Chan, выделяют потенциальный вред от распространения языка вражды, ответственность разработчиков и платформ, необходимость регулирования и контроля ИИ, а также роль открытости и прозрачности в исследованиях такой сложной технологии[3].
Что важно знать
| GPT4-Chan | |
|---|---|
| Тип | Большая языковая модель, Генеративный предварительно обученный трансформер |
| Автор | EleutherAI |
| Разработчик | Янник Кильхер |
| Первый выпуск | 3 июня 2022 |
| Репозиторий | github.com/yk/gpt-4chan-… |
| Лицензия | Apache License 2.0[1] |
| Сайт | huggingface.co/ykilcher/… |
Разработка
Разработка GPT4-Chan началась в мае 2022 года, когда Кильхер анонсировал проект на своём YouTube-канале. Он отметил, что до появления ChatGPT хотел создать большую языковую модель, способную генерировать реалистичные и связные тексты в стиле /pol/ — одного из самых одиозных онлайн-сообществ[4].
Вдохновлённый успехом GPT-3 от OpenAI и открытой моделью GPT-J с сопоставимыми характеристиками (разработкой коллектива EleutherAI), Кильхер выбрал в качестве основы GPT-J и дообучил её на большом корпусе сообщений /pol/. Корпус, известный как Raiders of the Lost Kek, включал свыше 100 миллионов постов, опубликованных в период с июня 2016 по ноябрь 2019 года.
После подготовки датасета Кильхер дообучил модель на данных 4chan. Он также продемонстрировал спектр примеров генерации: от политических мнений, теорий заговора, шуток, оскорблений и угроз, до более креативных и абсурдных текстов (стихи, рассказы, песни, программный код). Кильхер отметил, что его впечатлила беглость и разнообразие сгенерированных текстов, а также было любопытно, как такая система будет проявлять себя в реальном общении с /pol/-пользователями[5].
Выпуск
В июне 2022 года Кильхер запустил свою модель непосредственно на /pol/, используя специально созданного бота для публикаций и ответов в темах. Личность модели не раскрывалась, система работала автономно, без какого-либо вмешательства человека. Целью эксперимента было наблюдение за поведением бота и его влиянием на реальные обсуждения, а также испытание модели на устойчивость в условиях органической среды, включая троллинг, флеймы, провокации и модерацию[6].
Параллельно Кильхер выложил модель для свободного доступа на платформе Hugging Face — желая поделиться работой с исследовательским сообществом и публично обсудить этические аспекты. Модель была доступна через веб-интерфейс и API, а её исходный код и данные опубликовал в открытом репозитории на GitHub[7].
Контроверсия
Публичный запуск GPT4-Chan вызвал широкий общественный резонанс. На форуме /pol/ публикации и ответы модели привлекли к себе большое внимание и вызвали оживлённую реакцию — пользователи не подозревали искусственный характер собеседника. Некоторые участники отмечали у бота интеллект, чувство юмора и креативность, другие, напротив, критиковали за невежество, нелогичность и абсурд. Были и попытки троллинга, провокаций и проверок модели с разнообразными, в том числе провокационными вопросами, что в ряде случаев приводило к ярким и агрессивным спорам[8].
На Hugging Face страница модели получила множество запросов, отзывов и комментариев. Однако, на фоне возникшей вокруг проекта полемики, доступ к GPT4-Chan на платформе был ограничен, а затем и полностью закрыт из-за опасений возможного вреда. Примечательно, что в обсуждения вмешался лично генеральный директор платформы Клеман Деланг, что крайне редко случается в практике модерации контента[9].
Выход GPT4-Chan в публичное пространство получил широкий отклик в СМИ и социальных сетях. Видеоролик на YouTube собрал значительное число просмотров и обсуждений. Кроме того, петиция с осуждением развёртывания GPT4-Chan набрала свыше 300 подписей от экспертов по технологиям[10].


