IBM Granite

IBM Granite — серия моделей искусственного интеллекта, разработанных компанией IBM, использующих архитектуру декодера (decoder-only)[3]. Анонс моделей состоялся 7 сентября 2023 года[4],[5] а первая статья о них вышла через четыре дня[6]. Изначально Granite были созданы для использования в облачной платформе Watsonx от IBM[7]. Впоследствии IBM открыла исходный код моделей[8].[9] Модели Granite обучались на наборах данных, включающих информацию из Интернета, научные публикации, а также документы юридической и финансовой сфер[1].[10][11]

Что важно знать

Фундаментальные модели

Фундаментальная модель — это модель искусственного интеллекта, обученная на данных в большом масштабе, что позволяет применять её ко множеству задач[12].

Первые фундаментальные модели Granite — это Granite.13b.instruct и Granite.13b.chat. Число «13b» означает 13 миллиардов параметров, что меньше по сравнению с большинством больших моделей того времени. Более поздние версии включают модели с размером от 3 до 34 миллиардов параметров[4].

6 мая 2024 года IBM открыла исходный код серии моделей Granite Code, выпустив четыре варианта под лицензией Apache 2.0, разрешающей свободное использование, модификацию и распространение. Модели были размещены на платформе Hugging Face для публичного доступа[13]. По данным IBM, модель Granite 8b показывает более высокую производительность, чем LLaMA 3, в различных вычислительных задачах, связанных с программированием, при сопоставимом количестве параметров[8].

21 октября 2024 года был анонсирован Granite 3.0 с моделями 2B и 8B для бизнес-задач, интеграцией с NVIDIA NIM и Google Cloud[14].

Примечания

Ссылки