Дата отсечки знаний

Дата отсечки знаний (англ. knowledge cutoff; также дата отсечки данных) — момент времени, после которого обучающая выборка модели не обновлялась новыми данными. Термин обычно используется по отношению к большим языковым моделям (БЯМ)^[1]. Информация о событиях, произошедших после этой даты, отсутствует во внутренней базе знаний модели^[1]. Модель не может получить сведения о более поздних событиях без специальной системы для доступа к актуальным данным, такой как генерация с привлечением внешних данных (англ. retrieval-augmented generation, RAG)^[2]. Хотя информация о дате отсечки знаний важна для понимания возможностей и обучения больших языковых моделей, она также делает их подверженными галлюцинациям, лакунам в знаниях и временным искажениям^[1].

Модель с заданной датой отсечки знаний не способна дать информацию о фактах или событиях, появившихся после этой даты, так как она не подключена к интернету^[1] В результате модель может время от времени давать неправильные ответы.^[1] Это объясняется тем, что обучение на новых данных требует значительных затрат: стоимость обучения самых мощных больших языковых моделей может достичь миллиарда долларов, согласно журналу Time.^[3].

Примеры известных дат отсечки знаний для ИИ-моделей:

Модель GPT-4 имеет дату отсечки знаний — сентябрь 2021 года^[4].
Модель GPT-4 Turbo — декабрь 2023 года^[4].
Модели Llama 4 — август 2024 года^[5].

Лакуны знаний

Дата отсечки знаний создаёт информационные лакуны: модель не знает о событиях или открытиях, отсутствующих в её обучающих данных^[1] Это может приводить к галлюцинациям — генерации правдоподобных, но заведомо ложных утверждений. Такие ошибки связаны с тем, что большие языковые модели выбирают слова на основе внутреннего словаря и наиболее вероятных вариантов, которые могут быть как верными, так и неверными.^[6].

Фактическая и объявленная дата отсечки

Исследование, опубликованное на arXiv, отмечает, что реальная, практическая дата отсечки знаний модели может не совпадать с официально объявленной: она различается по разным областям и определяется распределением информации в обучающих данных^[7]. Поскольку полное переобучение моделей крайне затратно, это происходит редко^[8]. Некоторые модели используют встроенные инструменты поиска для доступа к более свежей информации, что размывает границу их внутренней базы знаний. Например, GPT-4 может обращаться к поиску и выдавать актуальные сведения^[4].

Генерация с привлечением внешних данных

RAG (англ. retrieval-augmented generation) — распространённый подход для обхода недостатков даты отсечки^[2]. В системе RAG языковая модель подключается к внешней базе знаний или поисковику для получения актуальных данных. Такая архитектура позволяет находить свежую информацию для запроса и включать её в ответ, нередко со ссылками на источники^[2]. Привязка модели к внешним данным помогает снизить частоту галлюцинаций и повысить точность выхода. Однако внешний источник информации может быть неактуальным или содержать предвзятость, что также приводит к ошибкам или галлюцинациям^[9]. Например, сервис Google AI Overviews иногда выдаёт недостоверные утверждения из-за ошибок в понимании источников либо на этапе генерации^[9]. Одним из способов компенсации таких ошибок является применение методов, таких как обучение с подкреплением на основе обратной связи от человека, что улучшает качество ответов больших языковых моделей^[9].

Непрерывное обучение

Другой подход — непрерывное обучение (англ. continual learning), включающий методы адаптеров и LoRA^[10]. Методы тонкой настройки позволяют экономно и постепенно обновлять модель без затрат на полное переобучение. Однако это не даёт реального доступа к текущей информации, а добавление модулей может привести к алгоритмическим искажениям и феномену катастрофического забывания, когда веса модели смещаются в сторону новых данных^[10].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Дата отсечки знаний

Обзор

Влияние даты отсечки знаний

Лакуны знаний

Фактическая и объявленная дата отсечки

Подходы к преодолению ограничения даты отсечки знаний

Генерация с привлечением внешних данных

Непрерывное обучение

Примечания