The Pile (датасет)

The Pile — разнообразный открытый англоязычный набор текстовых данных объёмом 886 ГБ, созданный для обучения больших языковых моделей (БЯМ). Он был сформирован исследовательским коллективом EleutherAI в 2020 году и открыт для общественности 31 декабря этого года^[1].^[2] В состав The Pile входят 22 отдельных поднабора, из которых 14 были созданы впервые^[1]

Для обучения больших языковых моделей требуются огромные объёмы данных, и до появления The Pile основным источником служил Common Crawl.^[3]. Однако показано, что БЯМ, обученные на более разнообразных данных, эффективнее применяются для решения широкого круга задач^[4]. Инициатива по созданию The Pile была вызвана необходимостью создать набор, достаточно крупный и одновременно состоящий из разнообразных источников и стилей письма^[1]^[5]. По сравнению с другими наборами данных (на 2022 год), главное отличие The Pile — его состав определяли исследователи EleutherAI, чтобы включить данные, которые, по их мнению, должны изучать языковые модели; кроме того, он был детально задокументирован командой разработчиков.

Машинные алгоритмы обучения не полностью используют обучающие данные за один проход, поэтому обычно обучение проводится в несколько эпох (epoch), то есть модель многократно обрабатывает одну и ту же совокупность данных^[6]. Чтобы учесть различия в качестве данных между 22 входящими поднаборами The Pile, каждому из них было назначено индивидуальное количество эпох, что влияет на относительную частоту отбора примеров из каждого поднабора^[1] В таблице приведён относительный размер каждого из 22 поднаборов до и после умножения на количество эпох. Размеры приведены в гигабайтах; новым наборам поставлен символ звёздочки.

Поднаборы The Pile^[1]^[5].
Компонент	Исходный объём, ГБ	Эпохи	Эффективный объём, ГБ
Pile-CC	243,87	1	243,87
PubMed Central*	96,93	2	193,86
Books3	108,40	1,5	162,61
OpenWebText2*	67,40	2	134,80
arXiv*	60,36	2	120,71
GitHub*	102,18	1	102,18
Free Law*	54,92	1,5	82,39
Stack Exchange*	34,57	2	69,14
USPTO Backgrounds*	24,59	2	49,19
PubMed Abstracts*	20,68	2	41,37
Gutenberg (PG-19)	11,68	2,5	29,20
OpenSubtitles	13,94	1,5	20,91
Wikipedia	6,85	3	20,54
DeepMind Mathematics	8,32	2	16,63
Ubuntu Freenode IRC логи*	5,93	2	11,84
BookCorpus2*	6,76	1,5	10,15
EuroParl	4,93	2	9,85
Hacker News*	4,19	2	8,38
YouTube Субтитры*	4,01	2	8,02
PhilPapers*	2,56	2	5,11
NIH ExPorter*	2,03	2	4,07
Почта Enron	0,95	2	1,89
Итого	886,03		1346,69

EleutherAI подбирала поднаборы с целью широкого тематического и стилевого охвата, включая научные тексты, с которыми языковые модели на других корпусах обычно справлялись хуже^[1]

Все данные The Pile были взяты из открытых общедоступных источников. Далее набор фильтровался для удаления дубликатов, а отдельные поднаборы проходили дополнительные проверки качества. Например, Pile-CC — модифицированный Common Crawl, в котором из текста убраны неинформативные элементы вроде HTML-разметки и ссылок.^[1]

Ряд потенциальных источников был отклонён по разным причинам; например, Конгресс-рекорд США не был включён из-за наличия расистских материалов.^[1]

Среди уже включённых поднаборов фильтрация отдельных документов на предмет неанглийского, предвзятого или ненормативного содержания, как и по признаку согласия на обработку, не проводилась. Поэтому, например, Pile-CC обладает теми же этическими вопросами, что и Common Crawl. При этом создатели The Pile документировали уровень предвзятости (по полу, религии и расе), ненормативной лексики и присутствия согласия для каждого поднабора, что позволяет исследователям с особыми этическими требованиями использовать только отвечающие их критериям части корпуса.^[1]

Первоначально The Pile был собран для обучения моделей GPT-Neo от EleutherAI^[7].^[8]^[9], но впоследствии получил широкое распространение для обучения других моделей, включая Megatron-Turing Natural Language Generation от Microsoft^[10]^[11], а также Open Pre-trained Transformers и LLaMA от Meta AI^[12]^[13], Galactica^[14], BioMedLM 2.7B от Стенфордского университета^[15], Chinese-Transformer-XL от Пекинская академия искусственного интеллекта^[16], YaLM 100B от Яндекс^[17] и OpenELM от Apple^[18].

Помимо тренировочного применения, The Pile используется как бенчмарк для тестирования языковых моделей и оценки их качества на различных стилях текста^[2]^[19].^[20]

Компонент Books3 внутри набора содержит материалы, защищённые авторским правом, собранные с пиратского сайта Bibliotik^[21]. В июле 2023 года организация Rights Alliance добилась удаления копий The Pile по уведомлениям DMCA^[22]. В ответ появились модифицированные копии The Pile с удалённым нарушающим авторское право компонентом^[23].

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 декабря 2020). “The Pile: An 800GB Dataset of Diverse Text for Language Modeling”. arXiv [англ.]. arXiv:2101.00027 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
↑ ¹ ² The Pile: An 800GB Dataset of Diverse Text for Language Modeling (англ.). EleutherAI Website. EleutherAI (13 февраля 2020). Дата обращения: 4 июня 2023. Архивировано 28 февраля 2023 года.
↑ Brown, Tom B; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie (22 июля 2020). “Language Models are Few-Shot Learners”. arXiv [англ.]. arXiv:2005.14165 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
↑ Rosset, Corby Turing-NLG: A 17-billion-parameter language model by Microsoft (англ.). Microsoft Blog. Microsoft (13 февраля 2020). Дата обращения: 31 декабря 2020. Архивировано 10 февраля 2020 года.
↑ ¹ ² The Pile Replication Code (англ.). github.com (15 июня 2021). Дата обращения: 29 октября 2024. Архивировано 4 августа 2025 года.
↑ Brownlee, Jason Difference Between a Batch and an Epoch in a Neural Network (англ.). machinelearningmastery.com (10 августа 2022). Дата обращения: 2 июня 2023. Архивировано 20 июня 2019 года.
↑ GPT-Neo 125M (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 23 октября 2025 года.
↑ GPT-Neo 1.3B (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 31 марта 2021 года.
↑ GPT-Neo 2.7B (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 1 октября 2025 года.
↑ Microsoft and Nvidia team up to train one of the world's largest language models (англ.), VentureBeat (11 октября 2021). Архивировано 27 марта 2023 года. Дата обращения: 8 марта 2023.
↑ AI: Megatron the Transformer, and its related language models (англ.) (24 сентября 2021). Дата обращения: 8 марта 2023. Архивировано 4 марта 2023 года.
↑ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 июня 2022). “OPT: Open Pre-trained Transformer Language Models”. arXiv [англ.]. arXiv:2205.01068 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
↑ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Grave, Edouard; Lample, Guillaume (27 февраля 2023). “LLaMA: Open and Efficient Foundation Language Models”. arXiv [англ.]. arXiv:2302.13971 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
↑ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (16 ноября 2022). “Galactica: A Large Language Model for Science”. arXiv [англ.]. arXiv:2211.09085 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
↑ Model Card for BioMedLM 2.7B (англ.). huggingface.co. Дата обращения: 5 июня 2023. Архивировано 5 июня 2023 года.
↑ Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao; Cen, Yukuo; Zou, Xu; Yang, Zhilin; Tang, Jie (2021). “WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models”. AI Open [англ.]. 2: 65—68. DOI:10.1016/j.aiopen.2021.06.001. Дата обращения 2024-06-05. |access-date= требует |url= (справка)
↑ Grabovskiy, Ilya Yandex publishes YaLM 100B, the largest GPT-like neural network in open source (англ.). Yandex (2022). Дата обращения: 5 июня 2023. Архивировано 31 января 2025 года.
↑ Mehta, Sachin; Sekhavat, Mohammad Hossein; Cao, Qingqing; Horton, Maxwell; Jin, Yanzi; Sun, Chenfan; Mirzadeh, Iman; Najibi, Mahyar; Belenko, Dmitry (1 мая 2024). “OpenELM: An Efficient Language Model Family with Open Training and Inference Framework”. arXiv [англ.]. arXiv:2404.14619 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
↑ Rae, Jack W; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah (21 января 2022). “Scaling Language Models: Methods, Analysis & Insights from Training Gopher”. arXiv [англ.]. arXiv:2112.11446 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)
↑ Lieber, Opher; Sharir, Or; Lenz, Barak; Shoham, Yoav Jurassic-1: Technical Details and Evaluation (англ.). AI21 Labs (1 августа 2021). Дата обращения: 5 июня 2023. Архивировано 11 августа 2025 года.
↑ Knibbs, Kate The Battle Over Books3 Could Change AI Forever (англ.). wired.com. Дата обращения: 13 октября 2023. Архивировано 19 октября 2025 года.
↑ Rights Alliance removes the illegal Books3 dataset used to train artificial intelligence (англ.). Rights Alliance (14 августа 2023). Дата обращения: 29 августа 2023. Архивировано 4 октября 2025 года.
↑ monology/pile-uncopyrighted — Dataset at Hugging Face (англ.) (22 апреля 2024). Архивировано 16 июня 2025 года.

[release_paper-1] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 декабря 2020). “The Pile: An 800GB Dataset of Diverse Text for Language Modeling”. arXiv [англ.]. arXiv:2101.00027 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)

[host_page-2] ¹ ² The Pile: An 800GB Dataset of Diverse Text for Language Modeling (англ.). EleutherAI Website. EleutherAI (13 февраля 2020). Дата обращения: 4 июня 2023. Архивировано 28 февраля 2023 года.

[3] Brown, Tom B; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie (22 июля 2020). “Language Models are Few-Shot Learners”. arXiv [англ.]. arXiv:2005.14165 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)

[4] Rosset, Corby Turing-NLG: A 17-billion-parameter language model by Microsoft (англ.). Microsoft Blog. Microsoft (13 февраля 2020). Дата обращения: 31 декабря 2020. Архивировано 10 февраля 2020 года.

[GitHub-5] ¹ ² The Pile Replication Code (англ.). github.com (15 июня 2021). Дата обращения: 29 октября 2024. Архивировано 4 августа 2025 года.

[6] Brownlee, Jason Difference Between a Batch and an Epoch in a Neural Network (англ.). machinelearningmastery.com (10 августа 2022). Дата обращения: 2 июня 2023. Архивировано 20 июня 2019 года.

[7] GPT-Neo 125M (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 23 октября 2025 года.

[8] GPT-Neo 1.3B (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 31 марта 2021 года.

[9] GPT-Neo 2.7B (англ.). huggingface.co (8 декабря 2022). Дата обращения: 7 июня 2023. Архивировано 1 октября 2025 года.

[10] Microsoft and Nvidia team up to train one of the world's largest language models (англ.), VentureBeat (11 октября 2021). Архивировано 27 марта 2023 года. Дата обращения: 8 марта 2023.

[11] AI: Megatron the Transformer, and its related language models (англ.) (24 сентября 2021). Дата обращения: 8 марта 2023. Архивировано 4 марта 2023 года.

[12] Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 июня 2022). “OPT: Open Pre-trained Transformer Language Models”. arXiv [англ.]. arXiv:2205.01068 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)

[13] Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Grave, Edouard; Lample, Guillaume (27 февраля 2023). “LLaMA: Open and Efficient Foundation Language Models”. arXiv [англ.]. arXiv:2302.13971 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)

[14] Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (16 ноября 2022). “Galactica: A Large Language Model for Science”. arXiv [англ.]. arXiv:2211.09085 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)

[15] Model Card for BioMedLM 2.7B (англ.). huggingface.co. Дата обращения: 5 июня 2023. Архивировано 5 июня 2023 года.

[16] Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao; Cen, Yukuo; Zou, Xu; Yang, Zhilin; Tang, Jie (2021). “WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models”. AI Open [англ.]. 2: 65—68. DOI:10.1016/j.aiopen.2021.06.001. Дата обращения 2024-06-05. |access-date= требует |url= (справка)

[17] Grabovskiy, Ilya Yandex publishes YaLM 100B, the largest GPT-like neural network in open source (англ.). Yandex (2022). Дата обращения: 5 июня 2023. Архивировано 31 января 2025 года.

[18] Mehta, Sachin; Sekhavat, Mohammad Hossein; Cao, Qingqing; Horton, Maxwell; Jin, Yanzi; Sun, Chenfan; Mirzadeh, Iman; Najibi, Mahyar; Belenko, Dmitry (1 мая 2024). “OpenELM: An Efficient Language Model Family with Open Training and Inference Framework”. arXiv [англ.]. arXiv:2404.14619 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)

[19] Rae, Jack W; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah (21 января 2022). “Scaling Language Models: Methods, Analysis & Insights from Training Gopher”. arXiv [англ.]. arXiv:2112.11446 [cs.CL]. Дата обращения 2024-06-05. Используется устаревший параметр |class= (справка); |access-date= требует |url= (справка)

[20] Lieber, Opher; Sharir, Or; Lenz, Barak; Shoham, Yoav Jurassic-1: Technical Details and Evaluation (англ.). AI21 Labs (1 августа 2021). Дата обращения: 5 июня 2023. Архивировано 11 августа 2025 года.

[21] Knibbs, Kate The Battle Over Books3 Could Change AI Forever (англ.). wired.com. Дата обращения: 13 октября 2023. Архивировано 19 октября 2025 года.

[22] Rights Alliance removes the illegal Books3 dataset used to train artificial intelligence (англ.). Rights Alliance (14 августа 2023). Дата обращения: 29 августа 2023. Архивировано 4 октября 2025 года.

[23] y/pile-uncopyrighted — Dataset at Hugging Face (англ.) (22 апреля 2024). Архивировано 16 июня 2025 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

The Pile (датасет)

Создание

Состав и фильтрация

Использование

DMCA и удаление Books3

Примечания

Категории