F1-мера
F1-мера (англ. F1 score) — метрика оценки качества моделей классификации, представляющая собой гармоническое среднее между точностью (precision) и полнотой (recall)[1][2].
Общие сведения
| F1-мера | |
|---|---|
| англ. F1 score | |
| Область использования | Машинное обучение, Статистическая классификация |
Определения
- F1-мера характеризует баланс между ложноположительными и ложноотрицательными ошибками классификатора и рассчитывается по формуле
- F1 = 2 · (Precision · Recall) / (Precision + Recall)[3].
Основные особенности метрики:
- «Наказывает» модель, если один из показателей (precision или recall) низок, поскольку гармоническое среднее чувствительно к минимальному значению[4].
- Позволяет объективно сравнивать модели при сильном дисбалансе классов, когда общая точность (accuracy) вводит в заблуждение[5].
- Удобна как единый числовой показатель при выборе наилучшей модели среди альтернатив[6].
- Precision (Точность) — одна из двух ключевых составляющих (вместе с полнотой/recall), показывающая, какая доля объектов, названных моделью положительными, действительно является положительной.
- Recall (Полнота) — метрика качества классификации, которая показывает, какую долю реальных положительных случаев (объектов целевого класса) модель нашла из всех фактически существующих положительных случаев.
- Accuracy (точность/меткость) — метрика качества классификации, показывающая долю правильных ответов модели среди всех сделанных прогнозов.
- Micro-F1 (микро-F1-мера) — способ усреднения F1-меры в задачах многоклассовой классификации, при котором суммируются истинно положительные, ложно положительные и ложно отрицательные результаты по всем классам, а уже затем рассчитываются единые показатели Precision (точность), Recall (полнота) и F1-мера.
- Macro-F1 (Макро-F1) — метод усреднения F1-меры в задачах многоклассовой классификации, при котором F1-мера вычисляется отдельно для каждого класса, а затем находится их простое арифметическое среднее.
- Weighted-F1 (взвешенная F1-мера) — метрика качества классификации, используемая в задачах с несколькими классами (multiclass), которая представляет собой среднее гармоническое между precision (точностью) и recall (полнотой), вычисленное отдельно для каждого класса, с учетом веса (количества объектов) каждого класса.
Компоненты F1-меры
F1-мера опирается на показатели матрицы ошибок:
- TP — истинно-положительные;
- FP — ложно-положительные;
- FN — ложно-отрицательные;
- TN — истинно-отрицательные.
Из этих величин выводятся:
Расчёт F1-меры
Для двухклассовых задач формула F1 приведена выше и напрямую использует значения Precision и Recall[1].
Для задач с числом классов k применяются усреднённые модификации метрики[9].
- Micro-F1 — суммируются TP, FP и FN по всем классам, после чего считается единая F1-мера; даёт больший вес частым классам[10].
- Macro-F1 — F1 вычисляется отдельно для каждого класса, затем берётся невзвешенное среднее; чувствительна к качеству на редких классах.
- Weighted-F1 — среднее F1 с весами, пропорциональными числу истинных примеров каждого класса; отражает реальное распределение выборки.
При необходимости метрика обобщается до Fβ, где параметр β позволяет усилить значимость Precision (β < 1) или Recall (β > 1)[6].
Преимущества и недостатки
Преимущества
- Объективная оценка при дисбалансе классов[2].
- Балансирует оба типа ошибок, снижая риск перекоса в пользу Precision или Recall[4].
- Представляет две важные характеристики (Precision и Recall) одним числом, облегчая сравнение моделей[6].
Недостатки
- Не учитывает истинно-отрицательные (TN) результаты и потому может быть недостаточной в задачах, где важен весь спектр ошибок[7].
- Предполагает равную важность Precision и Recall; при иной приоритетности требуется использовать Fβ[11].
- В микроварианте скрывает низкое качество на редких классах; в макроварианте, напротив, может переоценивать их вклад[9].
Ограничения
Ограничения F1-меры при несбалансированных данных
- Равноправие Precision и Recall: F1-мера присваивает одинаковый вес точности и полноте. В задачах с сильным дисбалансом (например, 1% — целевой класс) часто бывает важнее найти все редкие объекты (высокий Recall), жертвуя точностью (низкий Precision), или наоборот. F1-мера может давать высокую оценку модели, которая не решает бизнес-задачу.
- Чувствительность к миноритарному классу: F1-мера в основном фокусируется на качестве предсказания положительного (обычно меньшинства) класса. При крайне редких событиях даже незначительное изменение числа ложноположительных (FP) или ложноотрицательных (FN) результатов может привести к резкому изменению F1, что делает метрику нестабильной.
- Не учитывает True Negatives (TN): F1-мера не учитывает истинно отрицательные примеры. Это хорошо для поиска редких событий, но при очень низком числе примеров целевого класса F1-мера может давать обманчиво высокие значения, даже если модель ошибается на большинстве случаев.
- Проблемы с F1-binary: Исследования показывают, что F1-binary не является надежной метрикой для оценки моделей при сильном дисбалансе, так как она может маскировать плохую работу классификатора на редких классах.
Ограничения при асимметричных ошибках (разная цена FP и FN)
Асимметричные ошибки означают, что ложноположительный результат (FP — «ложная тревога») и ложноотрицательный результат (FN — «пропуск цели») имеют разную стоимость.
- Пример: В диагностике рака (FN) пропустить больного опаснее, чем (FP) отправить здорового на дообследование.
- Некорректная расстановка приоритетов: F1-мера не позволяет настроить, какая ошибка важнее. Она «штрафует» за оба типа ошибок одинаково, если они влияют на Precision/Recall равным образом.
- Необходимость использования : При асимметричных ошибках стандартная F1-мера (F1) не подходит. Вместо нее следует использовать -меру, где параметр позволяет смещать акцент:
- (например, F0.5): больший вес получает Precision (важнее минимизировать ложные срабатывания).
- (например, F2): больший вес получает Recall (важнее найти все позитивные примеры).
Области применения
F1-мера востребована, когда критичны оба типа ошибок и данные несбалансированы[5].
- Обнаружение спама и фильтрация нежелательной почты[12].
- Медицинская диагностика (например, выявление онкологических заболеваний по изображениям)[4].
- Системы обнаружения мошенничества в финансовых транзакциях[2].
- Метрики релевантности в информационном поиске и NLP-задачах[13].
- Мониторинг деградации моделей в продакшене — отслеживание F1 во времени сигнализирует о необходимости переобучения[2].
Инструменты для расчёта F1-меры
Ниже перечислены популярные библиотеки и их основные методы для вычисления F1-метрики[1].
- Python / scikit-learn — `sklearn.metrics.f1_score(y_true, y_pred, average=…)`.
- TensorFlow (Keras) — `tf.keras.metrics.F1Score(num_classes, average=…)` (доступен через TensorFlow Addons).
- PyTorch / TorchMetrics — `torchmetrics.F1Score(task="binary|multiclass|multilabel", average=…)`.
- R / MLmetrics — `F1_Score(y_true, y_pred)`.
- Apache Spark MLlib — `MulticlassClassificationEvaluator(metricName="f1")`.
- Weka — в отчёте оценки классификатора автоматически выводятся F-меры по классам и взвешенная F-мера.
Примечания
- ↑ 1 2 3 F1 Score in Machine Learning. GeeksforGeeks. Дата обращения: 4 июля 2025.
- ↑ 1 2 3 4 F-мера в машинном обучении. Sky.pro Wiki. Дата обращения: 4 июля 2025.
- ↑ Glossary: F1 Score. Julius AI. Дата обращения: 4 июля 2025.
- ↑ 1 2 3 F1 Score. Ultralytics. Дата обращения: 4 июля 2025.
- ↑ 1 2 F1 Score Explained. Encord Blog. Дата обращения: 4 июля 2025.
- ↑ 1 2 3 F1 Score Overview. Arize AI. Дата обращения: 4 июля 2025.
- ↑ 1 2 Understanding Precision, Recall and F1 Score. Medium. Дата обращения: 4 июля 2025.
- ↑ F1 Score. Flowhunt. Дата обращения: 4 июля 2025.
- ↑ 1 2 The Complete Guide to F1 Score. V7 Labs. Дата обращения: 4 июля 2025.
- ↑ Micro, Macro and Weighted Averages for F-metrics. Amir Masoud Sefidian Blog. Дата обращения: 4 июля 2025.
- ↑ Метрики классификации. StreamMyData. Дата обращения: 4 июля 2025.
- ↑ What is an F1 Score? EITCA Academy. Дата обращения: 4 июля 2025.
- ↑ Evaluation metrics. Microsoft Learn. Дата обращения: 4 июля 2025.
| Правообладателем данного материала является АНО «Интернет-энциклопедия «РУВИКИ». Использование данного материала на других сайтах возможно только с согласия АНО «Интернет-энциклопедия «РУВИКИ». |