Открытый искусственный интеллект

Открытый искусственный интеллект (англ. open-source artificial intelligence) — это система искусственного интеллекта, доступная для свободного использования, изучения, модификации и распространения^[1]. Эти свойства распространяются на все компоненты системы, включая датасеты, исходный код и параметры моделей, что способствует коллективной и прозрачной разработке ИИ^[1]. Условия доступа, изменения и распространения открытого искусственного интеллекта определяются лицензиями свободного программного обеспечения, например, Apache License, MIT License, GNU General Public License^[2].

Открытая модель дает большему количеству людей и организаций возможность участвовать в исследованиях и разработке ИИ^[3]^[4], в отличие от закрытых (проприетарных) ИИ, где исходный код и внутренние компоненты недоступны для внешнего использования^[3]. Компании нередко разрабатывают закрытые технологии, чтобы сохранить конкурентное преимущество^[5]. Однако некоторые эксперты полагают, что открытые ИИ-инструменты могут иметь преимущества в темпах развития и даже опередить закрытые продукты^[4]^[5].

К популярным категориям открытых ИИ-проектов относятся большие языковые модели, инструменты машинного перевода и чат-боты^[6]. Разработчики, создающие открытые системы ИИ, должны доверять другим открытым компонентам ПО, используемым в процессе создания^[7]^[8]. Считается, что открытый ИИ может нести повышенные риски, поскольку злоумышленники могут удалять защитные протоколы из публичных моделей^[4]. Вместе с тем, для закрытых ИИ также характерны риски, связанные с зависимостью, приватностью данных, непрозрачными алгоритмами, корпоративным контролем, ограниченной доступностью и потенциальным замедлением инноваций^[9]^[10].

Ведётся дискуссия о степени открытости ИИ-систем, отличая формальную открытость от реальной: в частности, публикация в журнале Nature отмечает использование термина «открытый» для систем типа Llama 3 от Meta, которые по сути предоставляют только АPI или возможность загрузки модели с ограничениями для её применения. Такая практика получила критику как «openwashing» — псевдооткрытость^[9]^[11]. Для оценки степени открытости появились специальные рамки^[12], а Open Source Initiative выдвинула новую дефиницию открытого ИИ.^[13]^[14]^[15] Некоторые большие языковые модели (Large Language Models, LLM) выпускаются только с открытыми весами — т. е. в открытом доступе только параметры обученной модели, но не код и не данные обучения^[16]^[17].

История открытого искусственного интеллекта тесно связана с эволюцией ИИ как области и развитием движения открытого программного обеспечения^[18]. За последние десятилетия открытый ИИ претерпел значительную трансформацию благодаря вкладу академических институтов, исследовательских лабораторий, ИТ-компаний и независимых разработчиков^[19].

1990-е: Раннее развитие ИИ и открытого ПО

Идея ИИ появилась в середине XX века, когда учёные-математики Алан Тьюринг и Джон Маккарти заложили основы современных теорий и алгоритмов^[20]. Ранняя языковая программа ELIZA была реализована и открыто распространялась в 1977 году. Исследования были посвящены созданию символических экспертных систем^[21].

В начале 1990-х идеи открытости получали первые формулировки, а Ричард Столлман выступал за свободное программное обеспечение для стимулирования совместной разработки^[22]. Фонд свободного программного обеспечения, основанный им в 1985 году, стал одной из первых подобных организаций. Принципы открытого ПО впоследствии применялись и для ИИ-моделей и алгоритмов^[23]^[24].

В 1990-х начался массовый интерес к открытому ПО^[25], а развитие машинного обучения привело к созданию более практичных ИИ-инструментов. В 1993 году был создан Репозиторий искусственного интеллекта CMU с коллекцией открытых решений^[26].

2000-е: Появление открытого ИИ

В начале 2000-х выходят открытые фундаментальные библиотеки. OpenCV (2000) предложил множество алгоритмов ИИ, включая деревья решений, ближайшие соседи и опорные векторы^[27]. В 2007-м появилась Scikit-learn, ставшая одной из самых популярных библиотек машинного обучения.^[28]^[29]^[30] В том же году вышла библиотека Theano^[31].

2010-е: Рост открытых ИИ-фреймворков

Появились открытые фреймворки глубокого обучения: Torch (2011), позднее — PyTorch, TensorFlow^[32]^[33]. Они упростили построение и обучение нейронных сетей для таких задач, как распознавание изображений и обработка текста^[34]^[35].

В 2012 году вышла AlexNet, в 2013 — Word2vec от Google^[36]. В 2014 году опубликован исходный код конкурирующей модели GloVe с открытыми весами и документацией^[37].

2020-е: Открытые генеративные ИИ

После выхода GPT-2, компания OpenAI первоначально не публиковала исходный код моделей, ссылаясь на риски^[38]. После критики исходники GPT-2 были размещены на GitHub^[38], но для GPT-3 и GPT-4 компания публиковала только АPI^[39]^[40]. Это породило спрос на полностью открытые альтернативы.

Проекты вроде GPT-Neo и GPT-J (EleutherAI, 2021), а позднее — GPT-NeoX-20B и BLOOM, стали самыми мощными открытыми языковыми моделями^[41]^[42]. В это же время ряд крупных компаний публиковали модели под не полностью открытыми лицензиями (например, Meta — OPT, Galactica)^[43]^[44].

С усилением регулирования в ЕС в 2022—2024 годах стало актуальным определение, что считать открытым ИИ, учитывая вопросы доступа к обучающим данным^[45]. В 2024 году Open Source Initiative опубликовала Open Source AI Definition 1.0 (OSAID 1.0)^[46]. Согласно ей, требуется полная публикация ПО для обработки и инференса, а относительно данных достаточно «достаточно подробной информации для воссоздания системы квалифицированным специалистом»^[46].

В 2023—2025 годах опубликованы модели Llama (Meta), MosaicML MPT, Mixtral (Mistral AI), DeepSeek V3 LLM и другие, часто только с открытыми весами^[47]^[48]. Сообщество и Open Source Initiative подвергли критике такие проекты за ограничения лицензий, противоречащие принципам открытости^[49].

Появляются полностью открытые LLM: семейство OLMo (Allen Institute for AI)^[50], швейцарская серия Apertus (2025), Latam-GPT и ряд региональных инициатив^[51].

Вместе с развитием моделей возрастают усилия по обеспечению этических стандартов в ИИ.^[52]^[53] Особое внимание уделяется вопросам предвзятости, приватности, потенциального злоупотребления.^[52]^[53] Появляются рамки ответственной разработки (responsible AI) и инструкции по этической документации моделей — например, карточки моделей (Model Card, Google).^[54]^[55]

LF AI & Data Foundation при Linux Foundation способствует продвижению открытого ИИ, объединяя разработчиков и исследовательские организации, включая Nvidia, Amazon, Intel, Microsoft, Alibaba Group, TikTok, IBM, университетские лаборатории и др^[56]^[57]. В 2024 году фонд включал 77 участников и курировал 67 открытых проектов^[58].

В 2024 опубликована проектная рамка Model Openness Framework (MOF) — система оценки уровня открытости компонента ИИ (от Open Science Model до Open Model по градациям открытости)^[59]. Linux Foundation участвовал в разработке OSAID, который заимствовал ту же рубрику компонент^[60].

В сентябре 2022 создан PyTorch Foundation для управления одноимённым фреймворком^[61]. Учредители: AMD, Amazon Web Services, Google Cloud, Hugging Face, IBM, Intel, Meta, Microsoft, NVIDIA^[62].

Обработка естественного языка

Открытые ИИ способствовали распространению больших языковых моделей (LLM). Например, открытая модель BERT от Google применяется для распознавания сущностей и машинного перевода^[63]. Благодаря открытым LLM доступ к передовым языковым технологиям демократизирован^[64].

Машинный перевод

MarianMT от Hugging Face и OpenNMT — примеры открытых инструментов машинного перевода^[65]^[66]. Открытые датасеты, как WMT, Europarl, OPUS, позволяют обучать модели для специфических языков^[67]^[68].

Компьютерное зрение

Библиотека OpenCV поддерживает задачи реального времени: распознавание объектов, отслеживание движения, детекция лиц^[69]^[70]. Другие примеры: YOLO (You Only Look Once), Detectron2^[71]^[72].

Современное направление — визуальные трансформеры, которые обеспечивают более высокие показатели при интерпретации изображений, разделяя их на патчи и отслеживая наиболее значимую информацию^[73].

Робототехника

Открытый ИИ сыграл существенную роль в робототехнике: ROS — среда для построения модульных робототехнических систем^[74]. Symулятор Gazebo позволяет тестировать системы до внедрения^[75].

Медицина

В медицине используется открытый ИИ для диагностики, персонализированной терапии, анализа изображений^[76]. Визуализационные библиотеки применяются для автоматизации скрининга, а наборы OpenChem — для моделирования новых лекарств^[77].

Военное применение

Модели Llama от Meta, называемые компанией «открытыми», используются американскими подрядчиками в военных целях, после того как стало известно об их применении китайскими исследователями из Народно-освободительной армии Китая^[78]^[79]. Однако Open Source Initiative не считает Llama полностью открытой моделью из-за ограничений использования, прописанных в лицензии.

Демократизация доступа

Открытый ИИ снижает барьер входа для разработчиков и организаций, предоставляет возможности малым компаниям, стартапам, независимым исследователям и инноваторам^[80].

Коллективная разработка

Открытые проекты способствуют быстрому обмену идеями, ускоряют внедрение новых методов благодаря коллективной экспертизе по всему миру.^[23]^[81]

Разнообразие и справедливость разработки

Вклад участников из разных регионов и сообществ позволяет делать ИИ более инклюзивным, сокращая предвзятость, которую трудно устранить в закрытых продуктах^[82].

Прозрачность и объяснимость

Открытые модели позволяют изучить алгоритмы, операционные принципы и способствуют развитию объяснимых ИИ-систем^[12]. Открытость весов (например, Llama, Stable Diffusion) также способствует снижению предвзятости и росту доверия^[83].

Безопасность и независимость

Редакция журнала Nature рекомендует в медицине использовать открытые модели, чтобы избежать зависимости от коммерческих провайдеров и повысить устойчивость к недоступности сервиса.

Качество и безопасность

Пока открытые модели по ряду параметров уступают закрытым, однако развиваются быстрее^[84]. Опасности публичного ИИ в теории включают возможность удаления защитных механизмов и риска использования в терроризме^[4]^[85].

Этические, социальные и гендерные риски

ИИ-продукты могут быть предвзятыми: более высокий риск рецидива для афроамериканцев, худшие результаты для женщин или определённых языковых групп из-за особенностей обучающих данных.^[82]^[86]

Качество данных

Отсутствие контроля качества и недостаточная документация ограничивают применение ИИ, особенно для малых и специфических групп^[55]^[86].

Прозрачность и «чёрные ящики»

Даже открытые модели нередко остаются «чёрными ящиками», когда их внутреннее устройство и мотивация вывода неясны, что затрудняет аудит и повышение справедливости^[86]^[87].

Карточки моделей (Model cards). Позволяют документировать целевое применение, ограничения, этические аспекты^[88].
Measurement modeling. Оценивает, насколько система правильно и честно измеряет заявленные параметры на пересечении соц.науки и ИИ.
Паспорта датасетов (Datasheets for Datasets) — инструкция по структуре, сбору, ограничениям данных.
Открытие ChatGPT: метрики открытости инструкционных LLM. Открытое сообщество отслеживает степень прозрачности моделей^[89].
Model Openness Framework. Современный подход к классификации и прозрачности моделей и обучающих данных^[90].
European Open Source AI Index. Публичная база знаний по степени открытости и регулированию ИИ-систем ЕС^[91].

Является ли закрытый ИИ безопаснее для общества? — аргументированная карта (Kialo)
Сообщество Ocean of AI

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

Открытый искусственный интеллект

История