58-битная большая языковая модель

58-би́тная больша́я языкова́я моде́ль (англ. 1.58-bit large language model, также тернарная большая языковая модель) — разновидность больших языковых моделей, разработанная для повышения вычислительной эффективности. Эта модель использует веса, ограниченные всего тремя значениями: −1, 0 и +1. Такое ограничение значительно сокращает объём памяти, необходимый для модели, и ускоряет вычисления, поскольку дорогостоящие операции умножения заменяются менее затратными сложениями. В отличие от традиционных моделей, использующих 16-битные числа с плавающей запятой (например, FP16 или BF16) для хранения весов, тернарная модель снижает ресурсоёмкость.

Исследования показали, что для моделей с числом параметров до нескольких миллиардов производительность 1,58-битных моделей на различных задачах сопоставима с моделями полной точности^[1]^[2]. Такой подход позволяет запускать мощные ИИ на менее специализированном и энергоэффективном оборудовании^[3].

Название «1,58-битная» отражает тот факт, что система с тремя состояниями содержит $\log _{2}3\approx 1.58$ бита информации по теории информации. Такие модели иногда также называют 1-битными большими языковыми моделями (англ. 1-bit LLMs) в научных публикациях, хотя этот термин также может относиться и к истинно бинарным моделям (с весами только −1 и +1)^[1]^[4].

В 2024 году исследователи из Microsoft под руководством Ма объявили, что их 1,58-битная модель BitNet b1.58 по качеству сопоставима с 16-битной Llama 2 и знаменует собой начало эры 1-битных больших языковых моделей^[5]. При создании BitNet авторы не применяли постквантизацию весов после обучения, а использовали новый слой преобразования BitLinear, который заменил традиционный слой nn.Linear в архитектуре трансформера^[6].

В 2025 году исследователи Microsoft выпустили модель с открытыми весами и открытым исходным кодом инференса BitNet b1.58 2B4T, показавшую уровень производительности, сопоставимый с высокоточной моделью при 2 миллиардах параметров и 4 триллионах обучающих токенов^[7].

Производительность BitNet обусловлена её обучением непосредственно в 1,58-битном пространстве, а не переводом высокоточной модели в низкоразрядную после обучения. Тем не менее, само обучение является ресурсоёмким процессом, поэтому желательно иметь возможность переводить уже существующие модели в 1,58 бита. В 2024 году портал HuggingFace сообщил о способе постепенного применения 1,58-битной квантизации при дообучении уже существующей модели^[8].

Ряд исследователей^[9] отмечают, что законы масштабирования^[10] благоприятствуют низкоразрядным весам только в случае недоученных моделей; по мере увеличения количества обучающих токенов проявляются недостатки низкоразрядной квантизации.

Ma, Shuming; Wang, Hongyu; Ma, Lingxiao; Wang, Lei; Wang, Wenhui; Huang, Shaohan; Dong, Li; Wang, Ruiping; Xue, Jilong; Wei, Furu (27 февраля 2024). “The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits”. arXiv [англ.]. arXiv:2402.17764 [cs.CL]. Дата обращения 2025-04-22. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
Ma, Shuming; Wang, Hongyu; Huang, Shaohan; Zhang, Xingxing; Hu, Ying; Song, Ting; Xia, Yan & Wei, Furu (2025), BitNet b1.58 2B4T Technical Report, arΧiv:2504.12285 [cs.CL].
Friha, Othmane; Amine Ferrag, Mohamed; Kantarci, Burak; Cakmak, Burak; Ozgun, Arda; Ghoualmi-Zine, Nassira (2024). “LLM-Based Edge Intelligence: A Comprehensive Survey on Architectures, Applications, Security and Trustworthiness”. IEEE Open Journal of the Communications Society [англ.]. 5: 5799—5856. DOI:10.1109/OJCOMS.2024.3456549. ISSN 2644-125X. Дата обращения 2025-04-22. |access-date= требует |url= (справка)
Hutson, Matthew. 1-bit LLMs Could Solve AI's Energy Demands (англ.) (30 мая 2024). Дата обращения: 22 апреля 2025.
Huyen, Chip. AI Engineering : [англ.]. — O'Reilly Media, Inc., 4 декабря 2024. — ISBN 978-1-0981-6627-4.
Kumar, Tanishq; Ankner, Zachary; Spector, Benjamin F.; Bordelon, Blake; Muennighoff, Niklas; Paul, Mansheej; Pehlevan, Cengiz; Ré, Christopher; et al. (2024), Scaling Laws for Precision, arΧiv:2411.04330 [cs.LG].
Morales, Jowi Microsoft researchers build 1-bit AI LLM with 2B parameters (англ.). Tom's Hardware (17 апреля 2025). Дата обращения: 21 апреля 2025.
Ouyang, Xu; Ge, Tao; Hartvigsen, Thomas; Zhang, Zhisong; Mi, Haitao & Yu, Dong (2024), Low-Bit Quantization Favors Undertrained LLMS: Scaling Laws for Quantized LLMS with 100T Training Tokens, arΧiv:2411.17691 [cs.LG].
Wang, Hongyu; Ma, Shuming; Dong, Li; Huang, Shaohan; Wang, Huaijie; Ma, Lingxiao; Yang, Fan; Wang, Ruiping; et al. (2023), BitNet: Scaling 1-bit Transformers for Large Language Models, arΧiv:2310.11453 [cs.CL].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

58-битная большая языковая модель

BitNet

Постквантизация

Критика

Примечания

Литература

Категории