Hugging Face

Hugging Face, Inc. — американская компания со штаб-квартирой в Нью-Йоркe, разрабатывающая вычислительные инструменты для создания приложений на основе машинного обучения. Компания известна прежде всего своей библиотекой transformers, предназначенной для задач обработки естественного языка, а также платформой для обмена моделями машинного обучения и датасетами и демонстрации результатов.

Что важно знать
Hugging Face, Inc.
Тип частная компания
Основание 2016
Основатели Клеман Деланг (Clément Delangue), Жюльен Шомон (Julien Chaumond), Томас Вольф (Thomas Wolf)
Расположение Манхэттен, Нью-Йорк, США
Ключевые фигуры Клеман Деланг — генеральный директор; Жюльен Шомон — технический директор; Томас Вольф — директор по науке
Отрасль искусственный интеллект
машинное обучение
разработка программного обеспечения
Продукция модели, данные (datasets), Spaces, Learn, Inference, библиотеки
Оборот $15 млн (2022)
Число сотрудников 250 (2025)[1]
Сайт huggingface.co

История

Компания была основана в 2016 году французскими предпринимателями Клеманом Делангом, Жюльеном Шомоном и Томасом Вольфом в Нью-Йорке как разработчик чат-бота, ориентированного на подростков[2]. Название происходит от U+1F917 🤗  — одноимённого emoji[2]. После публикации исходного кода модели чат-бота компания сменила фокус на развитие платформы для машинного обучения.

В марте 2021 года Hugging Face привлекла $40 млн в рамках раунда финансирования серии B[3].

28 апреля 2021 компания совместно с рядом исследовательских команд запустила рабочую группу BigScience для создания и выпуска открытой языковой модели большого размера[4]. В 2022 году проект завершился анонсом BLOOM — многоязычной языковой модели с 176 млрд параметров[5][6].

В декабре 2022 года компания приобрела Gradio — open source-библиотеку для быстрой разработки приложений машинного обучения на Python[7].

5 мая 2022 года Hugging Face объявила о привлечении финансирования в рамках серии C во главе с Coatue и Sequoia[8]. Оценка компании достигла $2 млрд.

3 августа 2022 года была анонсирована Private Hub — корпоративная версия публичной платформы Hugging Face Hub для развёртывания по SaaS или в собственной инфраструктуре[9].

В феврале 2023 года компания объявила о сотрудничестве с Amazon Web Services (AWS), в результате которого её продукты стали доступны пользователям AWS для построения собственных приложений. Следующее поколение модели BLOOM планируется запускать на Trainium — специализированном чипе машинного обучения от AWS.[10][11][12]

В августе 2023 года объявлено о привлечении $235 млн в рамках раунда D при оценке $4,5 млрд. В раунде участвовали Salesforce, Google, Amazon, NVIDIA, AMD, Intel, IBM и Qualcomm[13].

В июне 2024 года компания совместно с Meta и Scaleway объявила о запуске акселерационной программы для европейских AI-стартапов. Цель — помочь стартапам интегрировать открытые модели машинного обучения в свои продукты и ускорить развитие AI-экосистемы ЕС. Программа базируется в STATION F в Париже и работает с сентября 2024 до февраля 2025 года. Участники получают наставничество, доступ к AI-моделям и вычислительные мощности Scaleway[14].

23 сентября 2024 года в рамках Международного десятилетия коренных языков Hugging Face, Meta и ЮНЕСКО запустили онлайн-переводчик[15] на базе открытой модели No Language Left Behind от Meta. Сервис поддерживает бесплатный перевод между 200 языками, включая малораспространённые[16].

В апреле 2025 года Hugging Face объявила о приобретении стартапа в области робототехники — Pollen Robotics (Франция, основан в 2016 Маттьё Лапьером (Matthieu Lapeyre) и Пьером Руанэ (Pierre Rouanet))[17].[18] В социальной сети X, генеральный директор Клеман Деланг обозначил цель сделать искусственный интеллект и робототехнику открытыми[19].

Деятельность и технологии

Библиотека Transformers

Transformers — пакет на языке Python, содержащий open source-реализации моделей трансформеров для работы с текстом, изображениями и аудиофрагментами. Основная поддержка реализована для PyTorch, ранее поддерживались TensorFlow и JAX. В составе библиотеки представлены реализации таких моделей, как BERT и GPT-2[20]. Изначально библиотека называлась «pytorch-pretrained-bert»[21], затем «pytorch-transformers» и далее «transformers».

Существуют реализации для JavaScript (Transformers.js[22]), позволяющие запускать модели в браузере с помощью ONNX.

Hugging Face Hub

Hugging Face Hub — централизованная платформа (web-сервис) для размещения:[23]

  • репозиториев на Git для кода, с обсуждениями и pull-запросами;
  • моделей (с контролем версий на базе Git);
  • датасетов (в основном текст/изображения/аудио);
  • веб-приложений («Spaces» и «widgets») — для демонстрации ml-проектов.

В хранилище публикуются предварительно обученные модели для разных задач:

  • обработка текста: классификация, извлечение сущностей, ответы на вопросы, языковое моделирование, суммаризация, перевод, генерация, выбор;
  • Компьютерное зрение: классификация изображений, обнаружение и сегментация объектов;
  • Аудио: автоматическое распознавание речи, классификация аудиофайлов.

Прочие библиотеки

Кроме Transformers и Hugging Face Hub, экосистема Hugging Face включает библиотеки для обработки данных («Datasets»), оценки моделей («Evaluate»), генерации изображений («Diffusers»), а также конструкторы машинного обучения и веб-демонстрации («Gradio»)[24].

Safetensors

Формат safetensors был разработан около 2021 года для решения проблем pickle-формата в Python при сохранении и загрузке тензоров. Его преимущества — возможность ленивой загрузки и отсутствие известных уязвимостей[25]. После прохождения безопасности (security audit) в 2023 году он стал стандартным форматом[26].

Структура файла safetensors:

  • размер заголовка: 8 байт — беззнаковое 64-битное целое (младшие байты впереди);
  • заголовок: строка JSON UTF-8 вида {«TENSOR_NAME»: {«dtype»: «F16», «shape»: [1, 16, 256], «data_offsets»: [НАЧАЛО, КОНЕЦ]}, «NEXT_TENSOR_NAME»: {…}, …};
  • далее — байтовый буфер с тензорами.

Примечания