FlagAI

FlagAI — открытый расширяемый инструментарий для обучения и инференса крупномасштабных моделей искусственного интеллекта. Разрабатывается Пекинской академией искусственного интеллекта (BAAI) — китайской некоммерческой исследовательской лабораторией в области искусственного интеллекта[1]. FlagAI ориентирован на поддержку обучения, дообучения и внедрения масштабных моделей для различных задач с мультимодальностью; реализован полностью с открытым исходным кодом и включает ряд крупных предобученных моделей. Проект FlagAI одобрен как инкубационный проект на «sandbox»-уровне Linux Foundation[2].

Также встречается написание «Пекинская академия искусственного интеллекта» для всей организации-разработчика. Помимо разработки моделей и инфраструктуры ИИ, академия занимается продвижением сотрудничества между академическими кругами и индустрией[3], организацией ежегодной международной конференции и подготовкой специалистов высокого уровня[4]. Среди учредителей BAAI — ведущие компании, университеты и исследовательские институты Китая[5].

Общие сведения
FlagAI
Тип некоммерческая организация
Основание 2018
Основатели Чжан Хунцзян (англ. Zhang Hongjiang)
Расположение Удаоку, Пекин, Китай
Отрасль искусственный интеллект
Продукция крупные языковые модели; инструментарии для ИИ; вычислительные платформы; имитационные модели
Число сотрудников около 100 (2023)
Сайт baai.ac.cn

Продукты и приложения

По состоянию на 2023 год исследования академии сосредоточены на больших предобученных моделях (LLM) и открытой инфраструктуре искусственного интеллекта.

WuDao

WuDao[6] — крупная мультимодальная предобученная языковая модель[7][8]. Версия WuDao 2.0 была анонсирована 31 мая 2022 года[9][1] и сравнивалась по размеру с GPT-3. В то время как GPT-3 содержит 175 млрд параметров, WuDao — 1,75 трлн параметров[10], что делало её крупнейшей предобученной моделью в мире на момент запуска[9][11]. Обучение проходило на 4,9 ТБ изображений и текстов (включая 1,2 ТБ китайских и 1,2 ТБ английских текстовых данных)[9][12]. По словам руководства BAAI, WuDao создавалась как «самая крупная и мощная ИИ-модель»[13], однако простое сравнение количества параметров не всегда соответствует качеству модели[10].

WuDao способна к обработке естественного языка, распознаванию изображений, генерации текста и изображений[1]. Модель может писать эссе, поэзию и куплеты на традиционном китайском, создавать текст на основе статических изображений и почти фотореалистичные изображения по описанию на естественном языке. Помимо этого, WuDao применяется для виртуальных чат-агентов и моделирования 3D-структур белков, как AlphaFold[1].

FlagAI

FlagAI — открытый программный пакет для масштабного обучения и инференса моделей, поддерживающий мультимодальность и включающий публичный репозиторий с исходным кодом и наборами предобученных крупных моделей. Проект одобрен для инкубации на «sandbox»-уровне Linux Foundation[2].

Jiuding

Jiuding — вычислительная платформа для поддержки инноваций в области ИИ. По состоянию на сентябрь 2022 года система обеспечивает производительность 1000P с высокоскоростным соединением до 400 Гбит/с на сервер, а также поддерживает разные архитектуры ИИ-чипов. Платформа включает собственные компиляторы кода под различные архитектуры[14].

MetaWorm

MetaWorm — вычислительная модель нематоды Caenorhabditis elegans, симулирующая работу нервной системы червя, соединённую с цифровым «телом» в реальном времени[15]. Версия MetaWorm 1.0 демонстрирует поведение, сходное с реальным C. elegans[14].

BAAIWorm

BAAIWorm — интегративная модель нематоды Caenorhabditis elegans, сочетающая две подсистемы: модель мозга и модель взаимодействия тела и окружающей среды[16].

Emu3

Emu3 — набор мультимодальных ИИ-моделей, обученных исключительно методом предсказания следующего токена на токенизированных изображениях, текстах и видео[17].

BGE

BGE (BAAI General Embedding) — серия embedding-моделей, разработанных и опубликованных Пекинской академией искусственного интеллекта[18].

Примечания

  1. 1 2 3 4 Tarantola, A. China's gigantic multi-modal AI is no one-trick pony (англ.). Engadget (2 июня 2021). Дата обращения: 7 апреля 2023. Архивировано 7 апреля 2023 года.
  2. 1 2 June 30, 2022 Meeting of the LF AI & Data Technical Advisory Council (англ.). LF AI Data Foundation (30 июня 2022). Дата обращения: 6 апреля 2023.
  3. Nature Index - Institution Collaborations/Relationships (англ.). Nature. Дата обращения: 28 марта 2023.
  4. This Chinese Lab Is Aiming for Big AI Breakthroughs (англ.) (21 January 2021). Архивировано 7 апреля 2023 года. Дата обращения: 7 апреля 2023.
  5. The race of the AI labs heats up (англ.). Архивировано 17 ноября 2023 года. Дата обращения: 28 марта 2023.
  6. 智源研究院. 面向认知,智源研究院联合多家单位发布超大规模新型预训练模型"悟道·文汇" (кит.) (11 января 2021). Дата обращения: 29 марта 2024.
  7. Record-breaking AI model WuDao 2.0 unveiled in Beijing (англ.). China.org.cn (3 июня 2021). Дата обращения: 7 апреля 2023. Архивировано 20 марта 2023 года.
  8. Can A.I. help investors find the next hot technology? A number of companies are betting on it. (англ.), Fortune. Архивировано 7 апреля 2023 года. Дата обращения: 7 апреля 2023.
  9. 1 2 3 Feng, Coco Beijing-funded AI language model tops Google and OpenAI in raw numbers (англ.). South China Morning Post (2 июня 2021). Дата обращения: 7 апреля 2023. Архивировано 19 ноября 2023 года.
  10. 1 2 Mott, Nathaniel China Says WuDao 2.0 AI Is an Even Better Conversationalist than OpenAI, Google (англ.). Tom's Hardware (3 июня 2021).
  11. Cambrian-AI 2022 Predictions: Expect More Than Just New Chips (англ.) (20 January 2022).
  12. Heikkilä, Melissa Meet Wu Dao 2.0, the Chinese AI model making the West sweat (англ.). Politico (9 июня 2021). Дата обращения: 7 апреля 2023. Архивировано 7 апреля 2023 года.
  13. Greene, Tristan China's 'Wu Dao' AI is 10X bigger than GPT-3, and it can sing (англ.). TNW | Neural (3 июня 2021). Дата обращения: 7 апреля 2023. Архивировано 7 апреля 2023 года.
  14. 1 2 BAAI 2022: 'AI Life', Multimodal Models, AI for Science, Autonomous Driving and More! (англ.). Synced (7 июня 2022). Дата обращения: 6 апреля 2023.
  15. Wriggling abiotic worm manifests "intelligent life" rudiment (англ.) (2 June 2022).
  16. An integrative data-driven model simulating C. elegans brain, body and environment interactions (англ.). Дата обращения: 29 марта 2024.
  17. Emu3 claims “next-token prediction is all you need” (англ.). Дата обращения: 29 марта 2024.
  18. BGE Series (англ.). Дата обращения: 29 марта 2024.

Ссылки