F1-мера

F1-мера
F1-мера
	англ. F1 score
Область использования	Машинное обучение, Статистическая классификация

F1-мера
F1-мера
	англ. F1 score
Область использования	Машинное обучение, Статистическая классификация

F1-мера (англ. F1 score) — метрика оценки качества моделей классификации, представляющая собой гармоническое среднее между точностью (precision) и полнотой (recall)^[1]^[2].

F1-мера характеризует баланс между ложноположительными и ложноотрицательными ошибками классификатора и рассчитывается по формуле

F1 = 2 · (Precision · Recall) / (Precision + Recall)^[3].

Основные особенности метрики:

«Наказывает» модель, если один из показателей (precision или recall) низок, поскольку гармоническое среднее чувствительно к минимальному значению^[4].
Позволяет объективно сравнивать модели при сильном дисбалансе классов, когда общая точность (accuracy) вводит в заблуждение^[5].
Удобна как единый числовой показатель при выборе наилучшей модели среди альтернатив^[6].

Precision (Точность) — одна из двух ключевых составляющих (вместе с полнотой/recall), показывающая, какая доля объектов, названных моделью положительными, действительно является положительной.
Recall (Полнота) — метрика качества классификации, которая показывает, какую долю реальных положительных случаев (объектов целевого класса) модель нашла из всех фактически существующих положительных случаев.
Accuracy (точность/меткость) — метрика качества классификации, показывающая долю правильных ответов модели среди всех сделанных прогнозов.
Micro-F1 (микро-F1-мера) — способ усреднения F1-меры в задачах многоклассовой классификации, при котором суммируются истинно положительные, ложно положительные и ложно отрицательные результаты по всем классам, а уже затем рассчитываются единые показатели Precision (точность), Recall (полнота) и F1-мера.
Macro-F1 (Макро-F1) — метод усреднения F1-меры в задачах многоклассовой классификации, при котором F1-мера вычисляется отдельно для каждого класса, а затем находится их простое арифметическое среднее.
Weighted-F1 (взвешенная F1-мера) — метрика качества классификации, используемая в задачах с несколькими классами (multiclass), которая представляет собой среднее гармоническое между precision (точностью) и recall (полнотой), вычисленное отдельно для каждого класса, с учетом веса (количества объектов) каждого класса.

F1-мера опирается на показатели матрицы ошибок:

TP — истинно-положительные;
FP — ложно-положительные;
FN — ложно-отрицательные;
TN — истинно-отрицательные.

Из этих величин выводятся:

Точность (Precision) = TP / (TP + FP) — доля верно классифицированных положительных объектов среди всех, отнесённых моделью к положительному классу^[7].
Полнота (Recall, Sensitivity) = TP / (TP + FN) — доля верно обнаруженных положительных объектов среди всех реальных положительных^[8].

Бинарная классификация

Для двухклассовых задач формула F1 приведена выше и напрямую использует значения Precision и Recall^[1].

Многоклассовые варианты

Для задач с числом классов k применяются усреднённые модификации метрики^[9].

Micro-F1 — суммируются TP, FP и FN по всем классам, после чего считается единая F1-мера; даёт больший вес частым классам^[10].
Macro-F1 — F1 вычисляется отдельно для каждого класса, затем берётся невзвешенное среднее; чувствительна к качеству на редких классах.
Weighted-F1 — среднее F1 с весами, пропорциональными числу истинных примеров каждого класса; отражает реальное распределение выборки.

При необходимости метрика обобщается до F_β, где параметр β позволяет усилить значимость Precision (β < 1) или Recall (β > 1)^[6].

Преимущества

Объективная оценка при дисбалансе классов^[2].
Балансирует оба типа ошибок, снижая риск перекоса в пользу Precision или Recall^[4].
Представляет две важные характеристики (Precision и Recall) одним числом, облегчая сравнение моделей^[6].

Недостатки

Не учитывает истинно-отрицательные (TN) результаты и потому может быть недостаточной в задачах, где важен весь спектр ошибок^[7].
Предполагает равную важность Precision и Recall; при иной приоритетности требуется использовать F_β^[11].
В микроварианте скрывает низкое качество на редких классах; в макроварианте, напротив, может переоценивать их вклад^[9].

Ограничения F1-меры при несбалансированных данных

Равноправие Precision и Recall: F1-мера присваивает одинаковый вес точности и полноте. В задачах с сильным дисбалансом (например, 1% — целевой класс) часто бывает важнее найти все редкие объекты (высокий Recall), жертвуя точностью (низкий Precision), или наоборот. F1-мера может давать высокую оценку модели, которая не решает бизнес-задачу.
Чувствительность к миноритарному классу: F1-мера в основном фокусируется на качестве предсказания положительного (обычно меньшинства) класса. При крайне редких событиях даже незначительное изменение числа ложноположительных (FP) или ложноотрицательных (FN) результатов может привести к резкому изменению F1, что делает метрику нестабильной.
Не учитывает True Negatives (TN): F1-мера не учитывает истинно отрицательные примеры. Это хорошо для поиска редких событий, но при очень низком числе примеров целевого класса F1-мера может давать обманчиво высокие значения, даже если модель ошибается на большинстве случаев.
Проблемы с F1-binary: Исследования показывают, что F1-binary не является надежной метрикой для оценки моделей при сильном дисбалансе, так как она может маскировать плохую работу классификатора на редких классах.

Ограничения при асимметричных ошибках (разная цена FP и FN)

Асимметричные ошибки означают, что ложноположительный результат (FP — «ложная тревога») и ложноотрицательный результат (FN — «пропуск цели») имеют разную стоимость.

Пример: В диагностике рака (FN) пропустить больного опаснее, чем (FP) отправить здорового на дообследование.

Некорректная расстановка приоритетов: F1-мера не позволяет настроить, какая ошибка важнее. Она «штрафует» за оба типа ошибок одинаково, если они влияют на Precision/Recall равным образом.
Необходимость использования : При асимметричных ошибках стандартная F1-мера (F1) не подходит. Вместо нее следует использовать -меру, где параметр позволяет смещать акцент:
- (например, F0.5): больший вес получает Precision (важнее минимизировать ложные срабатывания).
- (например, F2): больший вес получает Recall (важнее найти все позитивные примеры).

F1-мера востребована, когда критичны оба типа ошибок и данные несбалансированы^[5].

Обнаружение спама и фильтрация нежелательной почты^[12].
Медицинская диагностика (например, выявление онкологических заболеваний по изображениям)^[4].
Системы обнаружения мошенничества в финансовых транзакциях^[2].
Метрики релевантности в информационном поиске и NLP-задачах^[13].
Мониторинг деградации моделей в продакшене — отслеживание F1 во времени сигнализирует о необходимости переобучения^[2].

Ниже перечислены популярные библиотеки и их основные методы для вычисления F1-метрики^[1].

Python / scikit-learn — `sklearn.metrics.f1_score(y_true, y_pred, average=…)`.
TensorFlow (Keras) — `tf.keras.metrics.F1Score(num_classes, average=…)` (доступен через TensorFlow Addons).
PyTorch / TorchMetrics — `torchmetrics.F1Score(task="binary|multiclass|multilabel", average=…)`.
R / MLmetrics — `F1_Score(y_true, y_pred)`.
Apache Spark MLlib — `MulticlassClassificationEvaluator(metricName="f1")`.
Weka — в отчёте оценки классификатора автоматически выводятся F-меры по классам и взвешенная F-мера.

↑ ¹ ² ³ F1 Score in Machine Learning (неопр.). GeeksforGeeks. Дата обращения: 4 июля 2025.
↑ ¹ ² ³ ⁴ F-мера в машинном обучении (неопр.). Sky.pro Wiki. Дата обращения: 4 июля 2025.
↑ Glossary: F1 Score (неопр.). Julius AI. Дата обращения: 4 июля 2025.
↑ ¹ ² ³ F1 Score (неопр.). Ultralytics. Дата обращения: 4 июля 2025.
↑ ¹ ² F1 Score Explained (неопр.). Encord Blog. Дата обращения: 4 июля 2025.
↑ ¹ ² ³ F1 Score Overview (неопр.). Arize AI. Дата обращения: 4 июля 2025.
↑ ¹ ² Understanding Precision, Recall and F1 Score (неопр.). Medium. Дата обращения: 4 июля 2025.
↑ F1 Score (неопр.). Flowhunt. Дата обращения: 4 июля 2025.
↑ ¹ ² The Complete Guide to F1 Score (неопр.). V7 Labs. Дата обращения: 4 июля 2025.
↑ Micro, Macro and Weighted Averages for F-metrics (неопр.). Amir Masoud Sefidian Blog. Дата обращения: 4 июля 2025.
↑ Метрики классификации (неопр.). StreamMyData. Дата обращения: 4 июля 2025.
↑ What is an F1 Score? (неопр.) EITCA Academy. Дата обращения: 4 июля 2025.
↑ Evaluation metrics (неопр.). Microsoft Learn. Дата обращения: 4 июля 2025.

Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ».
Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ».

[geeks-1] ¹ ² ³ F1 Score in Machine Learning (неопр.). GeeksforGeeks. Дата обращения: 4 июля 2025.

[skypro-2] ¹ ² ³ ⁴ F-мера в машинном обучении (неопр.). Sky.pro Wiki. Дата обращения: 4 июля 2025.

[julius-3] Glossary: F1 Score (неопр.). Julius AI. Дата обращения: 4 июля 2025.

[ultra-4] ¹ ² ³ F1 Score (неопр.). Ultralytics. Дата обращения: 4 июля 2025.

[encord-5] ¹ ² F1 Score Explained (неопр.). Encord Blog. Дата обращения: 4 июля 2025.

[arize-6] ¹ ² ³ F1 Score Overview (неопр.). Arize AI. Дата обращения: 4 июля 2025.

[medium-7] ¹ ² Understanding Precision, Recall and F1 Score (неопр.). Medium. Дата обращения: 4 июля 2025.

[flowhunt-8] F1 Score (неопр.). Flowhunt. Дата обращения: 4 июля 2025.

[v7-9] ¹ ² The Complete Guide to F1 Score (неопр.). V7 Labs. Дата обращения: 4 июля 2025.

[iamir-10] Micro, Macro and Weighted Averages for F-metrics (неопр.). Amir Masoud Sefidian Blog. Дата обращения: 4 июля 2025.

[streammy-11] Метрики классификации (неопр.). StreamMyData. Дата обращения: 4 июля 2025.

[eitca-12] What is an F1 Score? (неопр.) EITCA Academy. Дата обращения: 4 июля 2025.

[microsoft-13] Evaluation metrics (неопр.). Microsoft Learn. Дата обращения: 4 июля 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

F1-мера

Определения

Компоненты F1-меры

Расчёт F1-меры

Бинарная классификация

Многоклассовые варианты

Преимущества и недостатки

Ограничения

Области применения

Инструменты для расчёта F1-меры

Примечания

Категории