Дата отсечки знаний
Дата отсечки знаний (англ. knowledge cutoff; также дата отсечки данных) — момент времени, после которого обучающая выборка модели не обновлялась новыми данными. Термин обычно используется по отношению к большим языковым моделям (БЯМ)[1]. Информация о событиях, произошедших после этой даты, отсутствует во внутренней базе знаний модели[1]. Модель не может получить сведения о более поздних событиях без специальной системы для доступа к актуальным данным, такой как генерация с привлечением внешних данных (англ. retrieval-augmented generation, RAG)[2]. Хотя информация о дате отсечки знаний важна для понимания возможностей и обучения больших языковых моделей, она также делает их подверженными галлюцинациям, лакунам в знаниях и временным искажениям[1].
Обзор
Модель с заданной датой отсечки знаний не способна дать информацию о фактах или событиях, появившихся после этой даты, так как она не подключена к интернету[1] В результате модель может время от времени давать неправильные ответы.[1] Это объясняется тем, что обучение на новых данных требует значительных затрат: стоимость обучения самых мощных больших языковых моделей может достичь миллиарда долларов, согласно журналу Time.[3].
Примеры известных дат отсечки знаний для ИИ-моделей:
Влияние даты отсечки знаний
Дата отсечки знаний создаёт информационные лакуны: модель не знает о событиях или открытиях, отсутствующих в её обучающих данных[1] Это может приводить к галлюцинациям — генерации правдоподобных, но заведомо ложных утверждений. Такие ошибки связаны с тем, что большие языковые модели выбирают слова на основе внутреннего словаря и наиболее вероятных вариантов, которые могут быть как верными, так и неверными.[6].
Исследование, опубликованное на arXiv, отмечает, что реальная, практическая дата отсечки знаний модели может не совпадать с официально объявленной: она различается по разным областям и определяется распределением информации в обучающих данных[7]. Поскольку полное переобучение моделей крайне затратно, это происходит редко[8]. Некоторые модели используют встроенные инструменты поиска для доступа к более свежей информации, что размывает границу их внутренней базы знаний. Например, GPT-4 может обращаться к поиску и выдавать актуальные сведения[4].
Подходы к преодолению ограничения даты отсечки знаний
RAG (англ. retrieval-augmented generation) — распространённый подход для обхода недостатков даты отсечки[2]. В системе RAG языковая модель подключается к внешней базе знаний или поисковику для получения актуальных данных. Такая архитектура позволяет находить свежую информацию для запроса и включать её в ответ, нередко со ссылками на источники[2]. Привязка модели к внешним данным помогает снизить частоту галлюцинаций и повысить точность выхода. Однако внешний источник информации может быть неактуальным или содержать предвзятость, что также приводит к ошибкам или галлюцинациям[9]. Например, сервис Google AI Overviews иногда выдаёт недостоверные утверждения из-за ошибок в понимании источников либо на этапе генерации[9]. Одним из способов компенсации таких ошибок является применение методов, таких как обучение с подкреплением на основе обратной связи от человека, что улучшает качество ответов больших языковых моделей[9].
Другой подход — непрерывное обучение (англ. continual learning), включающий методы адаптеров и LoRA[10]. Методы тонкой настройки позволяют экономно и постепенно обновлять модель без затрат на полное переобучение. Однако это не даёт реального доступа к текущей информации, а добавление модулей может привести к алгоритмическим искажениям и феномену катастрофического забывания, когда веса модели смещаются в сторону новых данных[10].


