F1-Score

Tìm hiểu cách F1-Score cân bằng độ chính xác (precision) và khả năng gợi nhớ (recall) để đánh giá các mô hình học máy. Khám phá cách tối ưu hóa hiệu suất Ultralytics YOLO26 để có độ chính xác tốt hơn.

F1-Score là một thước đo hiệu suất quan trọng trong machine learning, kết hợp precision (độ chính xác) và recall (độ thu hồi) thành một trung bình điều hòa duy nhất. Nó đặc biệt hữu ích khi đánh giá các model phân loại (classification models) nơi tập dữ liệu bị mất cân bằng hoặc khi các trường hợp dương tính giả (false positives) và âm tính giả (false negatives) gây ra những chi phí khác nhau. Không giống như độ chính xác đơn thuần (accuracy) vốn có thể gây hiểu lầm nếu một class chiếm ưu thế trong tập dữ liệu, F1-Score mang lại cái nhìn cân bằng hơn về khả năng xác định chính xác các trường hợp liên quan của một model trong khi giảm thiểu sai số. Bằng cách phạt các giá trị cực đoan, thước đo này đảm bảo rằng điểm số cao chỉ đạt được khi cả precision và recall đều ở mức cao hợp lý, khiến nó trở thành thước đo tiêu chuẩn trong các lĩnh vực từ chẩn đoán y tế đến truy xuất thông tin.

Link to this sectionTại sao F1-Score lại quan trọng trong Machine Learning#

Trong nhiều tình huống thực tế, việc chỉ biết tỷ lệ phần trăm dự đoán đúng (accuracy) là không đủ. Ví dụ, trong anomaly detection, các trường hợp bình thường vượt xa số lượng các bất thường. Một model dự đoán "bình thường" cho mọi đầu vào có thể đạt độ chính xác 99% nhưng sẽ vô dụng trong việc phát hiện các vấn đề thực tế. F1-Score giải quyết vấn đề này bằng cách cân bằng hai thước đo đối nghịch:

Precision: Đo lường chất lượng của các dự đoán dương tính. Nó trả lời câu hỏi: "Trong tất cả các trường hợp mà model gán nhãn là dương tính, bao nhiêu trong số đó thực sự là dương tính?"
Recall: Đo lường số lượng của các dự đoán dương tính. Nó trả lời câu hỏi: "Trong tất cả các trường hợp dương tính thực tế, model đã xác định đúng bao nhiêu trường hợp?"

Vì thường tồn tại một sự đánh đổi—việc cải thiện precision có xu hướng làm giảm recall và ngược lại—F1-Score đóng vai trò là một thước đo thống nhất để tìm điểm cân bằng tối ưu. Điều này rất quan trọng khi tinh chỉnh model bằng hyperparameter optimization để đảm bảo hiệu suất mạnh mẽ trong các điều kiện đa dạng.

Link to this sectionCác ứng dụng trong thực tế#

Tiện ích của F1-Score mở rộng trên nhiều ngành công nghiệp khác nhau, nơi chi phí sai sót là đáng kể.

Medical Diagnostics: In AI in healthcare, specifically for tasks like tumor detection, a false negative (missing a tumor) is life-threatening, while a false positive (flagging benign tissue) causes unnecessary anxiety. The F1-Score helps researchers optimize models like YOLO26 to ensure that the system is sensitive enough to catch diseases without overwhelming doctors with false alarms.
Truy xuất thông tin và tìm kiếm: Các công cụ tìm kiếm và hệ thống phân loại tài liệu sử dụng F1-Score để đánh giá mức độ liên quan. Người dùng muốn thấy tất cả các tài liệu liên quan (recall cao) nhưng không muốn phải đọc qua các kết quả không liên quan (precision cao). F1-Score cao cho thấy công cụ đang truy xuất thông tin hiệu quả mà không bị nhiễu.
Spam Filtering: Email services use text classification to segregate spam. The system must catch spam emails (recall) but crucially must not label important work emails as junk (precision). The F1-Score serves as the primary benchmark for these filters.

Link to this sectionTính toán F1-Score với Ultralytics#

Các framework thị giác máy tính hiện đại đơn giản hóa việc tính toán các thước đo này. Khi huấn luyện các model phát hiện đối tượng (object detection), F1-Score được tự động tính toán trong giai đoạn validation. Ultralytics Platform trực quan hóa các thước đo này trong các biểu đồ thời gian thực, cho phép người dùng xem đường cong của F1-Score so với các ngưỡng tin cậy (confidence thresholds) khác nhau.

Dưới đây là cách bạn có thể truy cập các thước đo validation, bao gồm các thành phần của F1-Score, bằng Python API:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Validate the model on a dataset (metrics are computed automatically)
# This returns a validator object containing precision, recall, and mAP
metrics = model.val(data="coco8.yaml")

# Print the Mean Average Precision (mAP50-95), which correlates with F1 performance
print(f"mAP50-95: {metrics.box.map}")

# Access precision and recall arrays to manually inspect the balance
print(f"Precision: {metrics.box.p}")
print(f"Recall: {metrics.box.r}")

Link to this sectionF1-Score so với các thước đo liên quan#

Hiểu cách F1-Score khác biệt so với các tiêu chí đánh giá khác là điều cần thiết để chọn đúng công cụ cho dự án của bạn.

Khác biệt với Accuracy: Accuracy coi mọi lỗi là như nhau. F1-Score vượt trội hơn đối với các tập dữ liệu mất cân bằng vì nó tập trung vào hiệu suất của class dương tính (class thiểu số cần quan tâm).
Liên quan đến mAP: Mean Average Precision (mAP) là tiêu chuẩn để so sánh các model object detection trên tất cả các ngưỡng tin cậy. Tuy nhiên, F1-Score thường được sử dụng để xác định ngưỡng tin cậy tối ưu cho việc triển khai. Bạn có thể chọn ngưỡng nơi đường cong F1 đạt đỉnh để triển khai ứng dụng của mình.
Confusion Matrix: Confusion matrix cung cấp các số đếm thô (True Positives, False Positives, v.v.) mà từ đó F1-Score được suy ra. Trong khi ma trận cung cấp chi tiết theo từng phần, F1-Score cung cấp một số liệu thống kê tóm tắt duy nhất để so sánh nhanh.
ROC-AUC: Area Under the Curve (AUC) đo lường khả năng phân tách trên tất cả các ngưỡng. F1-Score thường được ưu tiên hơn ROC-AUC khi bạn có sự phân phối class bị lệch cao (ví dụ: phát hiện gian lận nơi gian lận là hiếm gặp).

Link to this sectionCải thiện F1-Score của bạn#

Nếu model của bạn gặp vấn đề với F1-Score thấp, một số chiến lược có thể giúp ích. Data augmentation có thể tăng sự đa dạng của các ví dụ dương tính, giúp model khái quát hóa tốt hơn. Sử dụng transfer learning từ các foundation model mạnh mẽ cho phép mạng lưới tận dụng các đặc trưng đã học trước. Ngoài ra, việc điều chỉnh confidence threshold trong quá trình inference có thể thay đổi thủ công sự cân bằng giữa precision và recall để tối đa hóa F1-Score cho trường hợp sử dụng cụ thể của bạn.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

F1-Score

Link to this sectionTại sao F1-Score lại quan trọng trong Machine Learning#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionTính toán F1-Score với Ultralytics#

Link to this sectionF1-Score so với các thước đo liên quan#

Link to this sectionCải thiện F1-Score của bạn#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!