F1-мера

F1-мера (англ. F1 score) — метрика оценки качества моделей классификации, представляющая собой гармоническое среднее между точностью (precision) и полнотой (recall)[1][2].

Общие сведения
F1-мера
англ. F1 score
Область использования Машинное обучение, Статистическая классификация

Определения

  • F1-мера характеризует баланс между ложноположительными и ложноотрицательными ошибками классификатора и рассчитывается по формуле
F1 = 2 · (Precision · Recall) / (Precision + Recall)[3].

Основные особенности метрики:

  1. «Наказывает» модель, если один из показателей (precision или recall) низок, поскольку гармоническое среднее чувствительно к минимальному значению[4].
  2. Позволяет объективно сравнивать модели при сильном дисбалансе классов, когда общая точность (accuracy) вводит в заблуждение[5].
  3. Удобна как единый числовой показатель при выборе наилучшей модели среди альтернатив[6].
  • Precision (Точность) — одна из двух ключевых составляющих (вместе с полнотой/recall), показывающая, какая доля объектов, названных моделью положительными, действительно является положительной.
  • Recall (Полнота) — метрика качества классификации, которая показывает, какую долю реальных положительных случаев (объектов целевого класса) модель нашла из всех фактически существующих положительных случаев.
  • Accuracy (точность/меткость) — метрика качества классификации, показывающая долю правильных ответов модели среди всех сделанных прогнозов.
  • Micro-F1 (микро-F1-мера) — способ усреднения F1-меры в задачах многоклассовой классификации, при котором суммируются истинно положительные, ложно положительные и ложно отрицательные результаты по всем классам, а уже затем рассчитываются единые показатели Precision (точность), Recall (полнота) и F1-мера.
  • Macro-F1 (Макро-F1) — метод усреднения F1-меры в задачах многоклассовой классификации, при котором F1-мера вычисляется отдельно для каждого класса, а затем находится их простое арифметическое среднее.
  • Weighted-F1 (взвешенная F1-мера) — метрика качества классификации, используемая в задачах с несколькими классами (multiclass), которая представляет собой среднее гармоническое между precision (точностью) и recall (полнотой), вычисленное отдельно для каждого класса, с учетом веса (количества объектов) каждого класса.
undefined

Компоненты F1-меры

F1-мера опирается на показатели матрицы ошибок:

  • TP — истинно-положительные;
  • FP — ложно-положительные;
  • FN — ложно-отрицательные;
  • TN — истинно-отрицательные.

Из этих величин выводятся:

  • Точность (Precision) = TP / (TP + FP) — доля верно классифицированных положительных объектов среди всех, отнесённых моделью к положительному классу[7].
  • Полнота (Recall, Sensitivity) = TP / (TP + FN) — доля верно обнаруженных положительных объектов среди всех реальных положительных[8].

Расчёт F1-меры

Бинарная классификация

Для двухклассовых задач формула F1 приведена выше и напрямую использует значения Precision и Recall[1].

Многоклассовые варианты

Для задач с числом классов k применяются усреднённые модификации метрики[9].

  • Micro-F1 — суммируются TP, FP и FN по всем классам, после чего считается единая F1-мера; даёт больший вес частым классам[10].
  • Macro-F1 — F1 вычисляется отдельно для каждого класса, затем берётся невзвешенное среднее; чувствительна к качеству на редких классах.
  • Weighted-F1 — среднее F1 с весами, пропорциональными числу истинных примеров каждого класса; отражает реальное распределение выборки.

При необходимости метрика обобщается до Fβ, где параметр β позволяет усилить значимость Precision (β < 1) или Recall (β > 1)[6].

Преимущества и недостатки

Преимущества

  • Объективная оценка при дисбалансе классов[2].
  • Балансирует оба типа ошибок, снижая риск перекоса в пользу Precision или Recall[4].
  • Представляет две важные характеристики (Precision и Recall) одним числом, облегчая сравнение моделей[6].

Недостатки

  • Не учитывает истинно-отрицательные (TN) результаты и потому может быть недостаточной в задачах, где важен весь спектр ошибок[7].
  • Предполагает равную важность Precision и Recall; при иной приоритетности требуется использовать Fβ[11].
  • В микроварианте скрывает низкое качество на редких классах; в макроварианте, напротив, может переоценивать их вклад[9].

Ограничения

Ограничения F1-меры при несбалансированных данных

  1. Равноправие Precision и Recall: F1-мера присваивает одинаковый вес точности и полноте. В задачах с сильным дисбалансом (например, 1% — целевой класс) часто бывает важнее найти все редкие объекты (высокий Recall), жертвуя точностью (низкий Precision), или наоборот. F1-мера может давать высокую оценку модели, которая не решает бизнес-задачу.
  2. Чувствительность к миноритарному классу: F1-мера в основном фокусируется на качестве предсказания положительного (обычно меньшинства) класса. При крайне редких событиях даже незначительное изменение числа ложноположительных (FP) или ложноотрицательных (FN) результатов может привести к резкому изменению F1, что делает метрику нестабильной.
  3. Не учитывает True Negatives (TN): F1-мера не учитывает истинно отрицательные примеры. Это хорошо для поиска редких событий, но при очень низком числе примеров целевого класса F1-мера может давать обманчиво высокие значения, даже если модель ошибается на большинстве случаев.
  4. Проблемы с F1-binary: Исследования показывают, что F1-binary не является надежной метрикой для оценки моделей при сильном дисбалансе, так как она может маскировать плохую работу классификатора на редких классах.

Ограничения при асимметричных ошибках (разная цена FP и FN)

Асимметричные ошибки означают, что ложноположительный результат (FP — «ложная тревога») и ложноотрицательный результат (FN — «пропуск цели») имеют разную стоимость.

  • Пример: В диагностике рака (FN) пропустить больного опаснее, чем (FP) отправить здорового на дообследование.
  1. Некорректная расстановка приоритетов: F1-мера не позволяет настроить, какая ошибка важнее. Она «штрафует» за оба типа ошибок одинаково, если они влияют на Precision/Recall равным образом.
  2. Необходимость использования : При асимметричных ошибках стандартная F1-мера (F1) не подходит. Вместо нее следует использовать -меру, где параметр  позволяет смещать акцент:
    • (например, F0.5): больший вес получает Precision (важнее минимизировать ложные срабатывания).
    • (например, F2): больший вес получает Recall (важнее найти все позитивные примеры).

Области применения

F1-мера востребована, когда критичны оба типа ошибок и данные несбалансированы[5].

  • Обнаружение спама и фильтрация нежелательной почты[12].
  • Медицинская диагностика (например, выявление онкологических заболеваний по изображениям)[4].
  • Системы обнаружения мошенничества в финансовых транзакциях[2].
  • Метрики релевантности в информационном поиске и NLP-задачах[13].
  • Мониторинг деградации моделей в продакшене — отслеживание F1 во времени сигнализирует о необходимости переобучения[2].

Инструменты для расчёта F1-меры

Ниже перечислены популярные библиотеки и их основные методы для вычисления F1-метрики[1].

  • Python / scikit-learn — `sklearn.metrics.f1_score(y_true, y_pred, average=…)`.
  • TensorFlow (Keras) — `tf.keras.metrics.F1Score(num_classes, average=…)` (доступен через TensorFlow Addons).
  • PyTorch / TorchMetrics — `torchmetrics.F1Score(task="binary|multiclass|multilabel", average=…)`.
  • R / MLmetrics — `F1_Score(y_true, y_pred)`.
  • Apache Spark MLlib — `MulticlassClassificationEvaluator(metricName="f1")`.
  • Weka — в отчёте оценки классификатора автоматически выводятся F-меры по классам и взвешенная F-мера.

Примечания

  1. 1 2 3 F1 Score in Machine Learning. GeeksforGeeks. Дата обращения: 4 июля 2025.
  2. 1 2 3 4 F-мера в машинном обучении. Sky.pro Wiki. Дата обращения: 4 июля 2025.
  3. Glossary: F1 Score. Julius AI. Дата обращения: 4 июля 2025.
  4. 1 2 3 F1 Score. Ultralytics. Дата обращения: 4 июля 2025.
  5. 1 2 F1 Score Explained. Encord Blog. Дата обращения: 4 июля 2025.
  6. 1 2 3 F1 Score Overview. Arize AI. Дата обращения: 4 июля 2025.
  7. 1 2 Understanding Precision, Recall and F1 Score. Medium. Дата обращения: 4 июля 2025.
  8. F1 Score. Flowhunt. Дата обращения: 4 июля 2025.
  9. 1 2 The Complete Guide to F1 Score. V7 Labs. Дата обращения: 4 июля 2025.
  10. Micro, Macro and Weighted Averages for F-metrics. Amir Masoud Sefidian Blog. Дата обращения: 4 июля 2025.
  11. Метрики классификации. StreamMyData. Дата обращения: 4 июля 2025.
  12. What is an F1 Score? EITCA Academy. Дата обращения: 4 июля 2025.
  13. Evaluation metrics. Microsoft Learn. Дата обращения: 4 июля 2025.
© Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».