Common Crawl

Common Crawl — некоммерческая организация, которая сканирует Интернет и бесплатно предоставляет публике свои архивы и наборы данных[1][2]. Веб-архив Common Crawl на ноябрь 2024 года имеет более 250 миллиардов страниц, собранных с 2008 года[3].

Common Crawl был основан Гилом Эльбазом[en][4]. Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито[5]. Поисковики организации придерживаются политики nofollow и robots.txt. Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает работы, защищенные авторским правом, и распространяется из США на условиях добросовестного использования. Исследователи в других странах использовали такие методы, как перетасовка предложений или обращение к набору данных общего сканирования, чтобы обойти закон об авторском праве в других правовых юрисдикциях[6].

По состоянию на июнь 2022 года в наборах данных Common Crawl 46-47 % документов английский был основным языком (за ним следовали русский, немецкий, китайский, французский, японский, испанский, причём только русский достигал доли в 6 %, остальные не более 4 % каждый)[7]. Но со временем доля английского постепенно падает и на ноябрь 2024 года составляет уже 43-44 %[8].

Что важно знать
Common Crawl
Год основания 2007
Основатели Гил Эльбаз[en]
Расположение Сан-Франциско, Лос-Анжелес Калифорния США
Ключевые фигуры Питер Норвиг, Ричард Скрента
Сфера деятельности издательское дело
Сайт commoncrawl.org

История

Amazon Web Services начала размещать архив Common Crawl в рамках своей программы общедоступных наборов данных в 2012 году[9].

Организация начала выпускать файлы метаданных и текстовые выходные данные сканеров вместе с файлами .arc в июле 2012 года. Ранее архивы Common Crawl включали только файлы .arc[10].

В декабре 2012 года blekko пожертвовала поисковой системе Common Crawl метаданные, которые blekko собрала с февраля по октябрь 2012 года[11]. Пожертвованные данные помогли Common Crawl «улучшить свой обход, избегая при этом спама, порнографии и влияния чрезмерного SEO»[11].

В 2013 году Common Crawl начал использовать веб-сканер Nutch от Apache Software Foundation вместо пользовательского сканера[12]. Common Crawl переключился с использования файлов .arc на .файлы warc с проверкой в ноябре 2013 года[13].

Отфильтрованная версия Common Crawl использовалась для обучения языковой модели OpenAI GPT-3, анонсированной в 2020 году[14].

Примечания