The Pile (датасет)
The Pile — разнообразный открытый англоязычный набор текстовых данных объёмом 886 ГБ, созданный для обучения больших языковых моделей (БЯМ). Он был сформирован исследовательским коллективом EleutherAI в 2020 году и открыт для общественности 31 декабря этого года[1].[2] В состав The Pile входят 22 отдельных поднабора, из которых 14 были созданы впервые[1]
Создание
Для обучения больших языковых моделей требуются огромные объёмы данных, и до появления The Pile основным источником служил Common Crawl.[3]. Однако показано, что БЯМ, обученные на более разнообразных данных, эффективнее применяются для решения широкого круга задач[4]. Инициатива по созданию The Pile была вызвана необходимостью создать набор, достаточно крупный и одновременно состоящий из разнообразных источников и стилей письма[1][5]. По сравнению с другими наборами данных (на 2022 год), главное отличие The Pile — его состав определяли исследователи EleutherAI, чтобы включить данные, которые, по их мнению, должны изучать языковые модели; кроме того, он был детально задокументирован командой разработчиков.
Состав и фильтрация
Машинные алгоритмы обучения не полностью используют обучающие данные за один проход, поэтому обычно обучение проводится в несколько эпох (epoch), то есть модель многократно обрабатывает одну и ту же совокупность данных[6]. Чтобы учесть различия в качестве данных между 22 входящими поднаборами The Pile, каждому из них было назначено индивидуальное количество эпох, что влияет на относительную частоту отбора примеров из каждого поднабора[1] В таблице приведён относительный размер каждого из 22 поднаборов до и после умножения на количество эпох. Размеры приведены в гигабайтах; новым наборам поставлен символ звёздочки.
| Компонент | Исходный объём, ГБ | Эпохи | Эффективный объём, ГБ |
|---|---|---|---|
| Pile-CC | 243,87 | 1 | 243,87 |
| PubMed Central* | 96,93 | 2 | 193,86 |
| Books3 | 108,40 | 1,5 | 162,61 |
| OpenWebText2* | 67,40 | 2 | 134,80 |
| arXiv* | 60,36 | 2 | 120,71 |
| GitHub* | 102,18 | 1 | 102,18 |
| Free Law* | 54,92 | 1,5 | 82,39 |
| Stack Exchange* | 34,57 | 2 | 69,14 |
| USPTO Backgrounds* | 24,59 | 2 | 49,19 |
| PubMed Abstracts* | 20,68 | 2 | 41,37 |
| Gutenberg (PG-19) | 11,68 | 2,5 | 29,20 |
| OpenSubtitles | 13,94 | 1,5 | 20,91 |
| Wikipedia | 6,85 | 3 | 20,54 |
| DeepMind Mathematics | 8,32 | 2 | 16,63 |
| Ubuntu Freenode IRC логи* | 5,93 | 2 | 11,84 |
| BookCorpus2* | 6,76 | 1,5 | 10,15 |
| EuroParl | 4,93 | 2 | 9,85 |
| Hacker News* | 4,19 | 2 | 8,38 |
| YouTube Субтитры* | 4,01 | 2 | 8,02 |
| PhilPapers* | 2,56 | 2 | 5,11 |
| NIH ExPorter* | 2,03 | 2 | 4,07 |
| Почта Enron | 0,95 | 2 | 1,89 |
| Итого | 886,03 | 1346,69 |
EleutherAI подбирала поднаборы с целью широкого тематического и стилевого охвата, включая научные тексты, с которыми языковые модели на других корпусах обычно справлялись хуже[1]
Все данные The Pile были взяты из открытых общедоступных источников. Далее набор фильтровался для удаления дубликатов, а отдельные поднаборы проходили дополнительные проверки качества. Например, Pile-CC — модифицированный Common Crawl, в котором из текста убраны неинформативные элементы вроде HTML-разметки и ссылок.[1]
Ряд потенциальных источников был отклонён по разным причинам; например, Конгресс-рекорд США не был включён из-за наличия расистских материалов.[1]
Среди уже включённых поднаборов фильтрация отдельных документов на предмет неанглийского, предвзятого или ненормативного содержания, как и по признаку согласия на обработку, не проводилась. Поэтому, например, Pile-CC обладает теми же этическими вопросами, что и Common Crawl. При этом создатели The Pile документировали уровень предвзятости (по полу, религии и расе), ненормативной лексики и присутствия согласия для каждого поднабора, что позволяет исследователям с особыми этическими требованиями использовать только отвечающие их критериям части корпуса.[1]
Использование
Первоначально The Pile был собран для обучения моделей GPT-Neo от EleutherAI[7].[8][9], но впоследствии получил широкое распространение для обучения других моделей, включая Megatron-Turing Natural Language Generation от Microsoft[10][11], а также Open Pre-trained Transformers и LLaMA от Meta AI[12][13], Galactica[14], BioMedLM 2.7B от Стенфордского университета[15], Chinese-Transformer-XL от Пекинская академия искусственного интеллекта[16], YaLM 100B от Яндекс[17] и OpenELM от Apple[18].
Помимо тренировочного применения, The Pile используется как бенчмарк для тестирования языковых моделей и оценки их качества на различных стилях текста[2][19].[20]
DMCA и удаление Books3
Компонент Books3 внутри набора содержит материалы, защищённые авторским правом, собранные с пиратского сайта Bibliotik[21]. В июле 2023 года организация Rights Alliance добилась удаления копий The Pile по уведомлениям DMCA[22]. В ответ появились модифицированные копии The Pile с удалённым нарушающим авторское право компонентом[23].