The Pile (датасет)

The Pile — разнообразный открытый англоязычный набор текстовых данных объёмом 886 ГБ, созданный для обучения больших языковых моделей (БЯМ). Он был сформирован исследовательским коллективом EleutherAI в 2020 году и открыт для общественности 31 декабря этого года[1].[2] В состав The Pile входят 22 отдельных поднабора, из которых 14 были созданы впервые[1]

Создание

Для обучения больших языковых моделей требуются огромные объёмы данных, и до появления The Pile основным источником служил Common Crawl.[3]. Однако показано, что БЯМ, обученные на более разнообразных данных, эффективнее применяются для решения широкого круга задач[4]. Инициатива по созданию The Pile была вызвана необходимостью создать набор, достаточно крупный и одновременно состоящий из разнообразных источников и стилей письма[1][5]. По сравнению с другими наборами данных (на 2022 год), главное отличие The Pile — его состав определяли исследователи EleutherAI, чтобы включить данные, которые, по их мнению, должны изучать языковые модели; кроме того, он был детально задокументирован командой разработчиков.

Состав и фильтрация

Машинные алгоритмы обучения не полностью используют обучающие данные за один проход, поэтому обычно обучение проводится в несколько эпох (epoch), то есть модель многократно обрабатывает одну и ту же совокупность данных[6]. Чтобы учесть различия в качестве данных между 22 входящими поднаборами The Pile, каждому из них было назначено индивидуальное количество эпох, что влияет на относительную частоту отбора примеров из каждого поднабора[1] В таблице приведён относительный размер каждого из 22 поднаборов до и после умножения на количество эпох. Размеры приведены в гигабайтах; новым наборам поставлен символ звёздочки.

Поднаборы The Pile[1][5].
Компонент Исходный объём, ГБ Эпохи Эффективный объём, ГБ
Pile-CC 243,87 1 243,87
PubMed Central* 96,93 2 193,86
Books3 108,40 1,5 162,61
OpenWebText2* 67,40 2 134,80
arXiv* 60,36 2 120,71
GitHub* 102,18 1 102,18
Free Law* 54,92 1,5 82,39
Stack Exchange* 34,57 2 69,14
USPTO Backgrounds* 24,59 2 49,19
PubMed Abstracts* 20,68 2 41,37
Gutenberg (PG-19) 11,68 2,5 29,20
OpenSubtitles 13,94 1,5 20,91
Wikipedia 6,85 3 20,54
DeepMind Mathematics 8,32 2 16,63
Ubuntu Freenode IRC логи* 5,93 2 11,84
BookCorpus2* 6,76 1,5 10,15
EuroParl 4,93 2 9,85
Hacker News* 4,19 2 8,38
YouTube Субтитры* 4,01 2 8,02
PhilPapers* 2,56 2 5,11
NIH ExPorter* 2,03 2 4,07
Почта Enron 0,95 2 1,89
Итого 886,03 1346,69

EleutherAI подбирала поднаборы с целью широкого тематического и стилевого охвата, включая научные тексты, с которыми языковые модели на других корпусах обычно справлялись хуже[1]

Все данные The Pile были взяты из открытых общедоступных источников. Далее набор фильтровался для удаления дубликатов, а отдельные поднаборы проходили дополнительные проверки качества. Например, Pile-CC — модифицированный Common Crawl, в котором из текста убраны неинформативные элементы вроде HTML-разметки и ссылок.[1]

Ряд потенциальных источников был отклонён по разным причинам; например, Конгресс-рекорд США не был включён из-за наличия расистских материалов.[1]

Среди уже включённых поднаборов фильтрация отдельных документов на предмет неанглийского, предвзятого или ненормативного содержания, как и по признаку согласия на обработку, не проводилась. Поэтому, например, Pile-CC обладает теми же этическими вопросами, что и Common Crawl. При этом создатели The Pile документировали уровень предвзятости (по полу, религии и расе), ненормативной лексики и присутствия согласия для каждого поднабора, что позволяет исследователям с особыми этическими требованиями использовать только отвечающие их критериям части корпуса.[1]

Использование

Первоначально The Pile был собран для обучения моделей GPT-Neo от EleutherAI[7].[8][9], но впоследствии получил широкое распространение для обучения других моделей, включая Megatron-Turing Natural Language Generation от Microsoft[10][11], а также Open Pre-trained Transformers и LLaMA от Meta AI[12][13], Galactica[14], BioMedLM 2.7B от Стенфордского университета[15], Chinese-Transformer-XL от Пекинская академия искусственного интеллекта[16], YaLM 100B от Яндекс[17] и OpenELM от Apple[18].

Помимо тренировочного применения, The Pile используется как бенчмарк для тестирования языковых моделей и оценки их качества на различных стилях текста[2][19].[20]

DMCA и удаление Books3

Компонент Books3 внутри набора содержит материалы, защищённые авторским правом, собранные с пиратского сайта Bibliotik[21]. В июле 2023 года организация Rights Alliance добилась удаления копий The Pile по уведомлениям DMCA[22]. В ответ появились модифицированные копии The Pile с удалённым нарушающим авторское право компонентом[23].

Примечания

  1. 1 2 3 4 5 6 7 8 9 Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 декабря 2020). “The Pile: An 800GB Dataset of Diverse Text for Language Modeling”. arXiv [англ.]. arXiv:2101.00027 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
  2. 1 2 The Pile: An 800GB Dataset of Diverse Text for Language Modeling (англ.). EleutherAI Website. EleutherAI (13 февраля 2020). Дата обращения: 4 июня 2023. Архивировано 28 февраля 2023 года.
  3. Brown, Tom B; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie (22 июля 2020). “Language Models are Few-Shot Learners”. arXiv [англ.]. arXiv:2005.14165 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
  4. Rosset, Corby Turing-NLG: A 17-billion-parameter language model by Microsoft (англ.). Microsoft Blog. Microsoft (13 февраля 2020). Дата обращения: 31 декабря 2020. Архивировано 10 февраля 2020 года.
  5. 1 2 The Pile Replication Code (англ.). github.com (15 июня 2021). Дата обращения: 29 октября 2024. Архивировано 4 августа 2025 года.
  6. Brownlee, Jason Difference Between a Batch and an Epoch in a Neural Network (англ.). machinelearningmastery.com (10 августа 2022). Дата обращения: 2 июня 2023. Архивировано 20 июня 2019 года.
  7. GPT-Neo 125M (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 23 октября 2025 года.
  8. GPT-Neo 1.3B (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 31 марта 2021 года.
  9. GPT-Neo 2.7B (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 1 октября 2025 года.
  10. Microsoft and Nvidia team up to train one of the world's largest language models (англ.), VentureBeat (11 октября 2021). Архивировано 27 марта 2023 года. Дата обращения: 8 марта 2023.
  11. AI: Megatron the Transformer, and its related language models (англ.) (24 сентября 2021). Дата обращения: 8 марта 2023. Архивировано 4 марта 2023 года.
  12. Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 июня 2022). “OPT: Open Pre-trained Transformer Language Models”. arXiv [англ.]. arXiv:2205.01068 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
  13. Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Grave, Edouard; Lample, Guillaume (27 февраля 2023). “LLaMA: Open and Efficient Foundation Language Models”. arXiv [англ.]. arXiv:2302.13971 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
  14. Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (16 ноября 2022). “Galactica: A Large Language Model for Science”. arXiv [англ.]. arXiv:2211.09085 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
  15. Model Card for BioMedLM 2.7B (англ.). huggingface.co. Дата обращения: 5 июня 2023. Архивировано 5 июня 2023 года.
  16. Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao; Cen, Yukuo; Zou, Xu; Yang, Zhilin; Tang, Jie (2021). “WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models”. AI Open [англ.]. 2: 65—68. DOI:10.1016/j.aiopen.2021.06.001. Дата обращения 2024-06-05. |access-date= требует |url= (справка)
  17. Grabovskiy, Ilya Yandex publishes YaLM 100B, the largest GPT-like neural network in open source (англ.). Yandex (2022). Дата обращения: 5 июня 2023. Архивировано 31 января 2025 года.
  18. Mehta, Sachin; Sekhavat, Mohammad Hossein; Cao, Qingqing; Horton, Maxwell; Jin, Yanzi; Sun, Chenfan; Mirzadeh, Iman; Najibi, Mahyar; Belenko, Dmitry (1 мая 2024). “OpenELM: An Efficient Language Model Family with Open Training and Inference Framework”. arXiv [англ.]. arXiv:2404.14619 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
  19. Rae, Jack W; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah (21 января 2022). “Scaling Language Models: Methods, Analysis & Insights from Training Gopher”. arXiv [англ.]. arXiv:2112.11446 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
  20. Lieber, Opher; Sharir, Or; Lenz, Barak; Shoham, Yoav Jurassic-1: Technical Details and Evaluation (англ.). AI21 Labs (1 августа 2021). Дата обращения: 5 июня 2023. Архивировано 11 августа 2025 года.
  21. Knibbs, Kate The Battle Over Books3 Could Change AI Forever (англ.). wired.com. Дата обращения: 13 октября 2023. Архивировано 19 октября 2025 года.
  22. Rights Alliance removes the illegal Books3 dataset used to train artificial intelligence (англ.). Rights Alliance (14 августа 2023). Дата обращения: 29 августа 2023. Архивировано 4 октября 2025 года.
  23. monology/pile-uncopyrighted — Dataset at Hugging Face (англ.) (22 апреля 2024). Архивировано 16 июня 2025 года.

Категории