Jais (language model)

Jais — открытая большая языковая модель, выпущенная в августе 2023 года. Разработка велась в сотрудничестве между эмиратской компанией в сфере искусственного интеллекта G42, Университетом искусственного интеллекта имени Мухаммеда бин Зайеда (MBZUAI) и американской Cerebras Systems. Jais создавалась для генерации высококачественного текста на арабском языке и также обучалась на английских данных[1].[2]

Создание модели было мотивировано недостаточным представлением арабского языка в области генеративного искусственного интеллекта. Jais призвана обеспечить более точное с культурной и языковой точки зрения моделирование для 400 миллионов носителей арабского языка во всём мире[3]. Название модели отсылает к Джабель-Джейс, самой высокой горе в ОАЭ[2].

Общие сведения
Jais
Тип Большая языковая модель
Генеративный ИИ
Разработчики Core42 (дочерняя компания G42)
Университет искусственного интеллекта имени Мухаммеда бин Зайеда
Cerebras Systems
Языки интерфейса английский и арабский
Первый выпуск 30 августа 2023
Последняя версия 30B параметров (9 ноября 2023)
Лицензия Apache License 2.0
Сайт jais.inceptionai.ai

Основные сведения и разработка

Jais была создана в ответ на ограниченную доступность современных моделей генеративного искусственного интеллекта для арабского языка, несмотря на то что на нём говорят более 400 миллионов человек[3]. Существующие модели часто обучались на ограниченном или низкокачественном арабском контенте из интернета, что приводило к низкой производительности[4]. Проект отражает значительные инвестиции Объединённых Арабских Эмиратов в направлении искусственного интеллекта в рамках национальной стратегии[1].

Модель создавалась в партнёрстве Inception (ныне Core42), дочерней компанией базирующейся в Абу-Даби G42; Университетом искусственного интеллекта имени Мухаммеда бин Зайеда (MBZUAI); и американской Cerebras Systems, специализирующейся на аппаратных решениях для ИИ[2].[1] Название новой модели связано с Джабель-Джейс, самой высокой точкой в ОАЭ[2]

Обучение

Первая версия Jais, выпущенная в августе 2023 года, включала 13 миллиардов параметров. В ноябре 2023 года компания Core42 представила Jais 30B — усовершенствованную версию с 30 миллиардами параметров.[5]. Обе модели были обучены с использованием отдельной части суперкомпьютера Cerebras Condor Galaxy 1[1][2]

Для обучения использовался датасет, включавший смесь текстов на арабском, английском языках, а также исходный код.[2][3]. По словам профессора обработки естественного языка из MBZUAI Тимоти Болдвина, обучение модели на разнообразных арабских данных позволяет ей переключаться между диалектами[3]

Возможности

Jais предназначена для генерации текстов как на английском, так и на арабском языках. В проекте также выпущены специальные («Chat») варианты обоих моделей (13B и 30B), дополнительно оптимизированные для диалоговых и чат-приложений.[5]. В будущих версиях планируется добавить поддержку изображений, графиков и табличных данных[3].

Примечания

  1. 1 2 3 4 Kerr, Simeon. UAE launches Arabic large language model in Gulf push into generative AI (англ.), Financial Times (30 August 2023). Архивировано 16 июня 2025 года. Дата обращения: 31 июля 2025.
  2. 1 2 3 4 5 6 Cherney, Max A.. UAE's G42 launches open source Arabic language AI model (англ.), Reuters (30 August 2023). Архивировано 30 августа 2023 года. Дата обращения: 31 июля 2025.
  3. 1 2 3 4 5 Tutton, Mark Arabic AI could help open doors for other languages (англ.). CNN (4 октября 2023). Дата обращения: 31 июля 2025. Архивировано 7 августа 2024 года.
  4. Ray, Tiernan Cerebras and Abu Dhabi build world's most powerful Arabic-language AI model (англ.). ZDNET (1 сентября 2023). Дата обращения: 31 июля 2025. Архивировано 6 августа 2024 года.
  5. 1 2 Core42 Sets New Benchmark for Arabic Large Language Models with the Release of Jais 30B, PR Newswire (9 ноября 2023). Архивировано 13 ноября 2023 года. Дата обращения: 31 июля 2025.

Ссылки