Tìm hiểu cách xác định, ngăn ngừa và giải quyết tình trạng underfitting trong các mô hình học máy với các mẹo, chiến lược và ví dụ thực tế từ các chuyên gia.
Trong học máy (ML), hiện tượng "underfitting" (không khớp) xảy ra khi một mô hình hoặc thuật toán thống kê quá đơn giản để nắm bắt cấu trúc cơ bản của dữ liệu. Nó mô tả một tình huống mà mô hình không thể học được mối quan hệ giữa các biến đầu vào và biến mục tiêu một cách đầy đủ. Do mô hình không nắm bắt được tín hiệu trong dữ liệu, hiệu suất của nó trên dữ liệu huấn luyện kém và khả năng khái quát hóa kém trên dữ liệu mới, chưa được biết đến. Một mô hình "underfit" thường có độ lệch cao, nghĩa là nó đưa ra những giả định mạnh, thường sai về dữ liệu, dẫn đến các mẫu bị bỏ sót và độ chính xác thấp.
Việc phát hiện tình trạng thiếu khớp (underfitting) thường khá dễ dàng trong giai đoạn đánh giá mô hình. Chỉ số chính là điểm số kém về các chỉ số hiệu suất, chẳng hạn như tỷ lệ lỗi cao hoặc độ chính xác thấp, trên cả tập huấn luyện và dữ liệu xác thực . Nếu hàm mất mát vẫn cao và không giảm đáng kể theo thời gian, mô hình có khả năng đang thiếu khớp. Không giống như tình trạng quá khớp, khi mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu xác thực, tình trạng thiếu khớp thể hiện việc mô hình không học được nhiệm vụ ngay từ đầu. Phân tích đường cong học tập có thể xác nhận trực quan hành vi này; một mô hình thiếu khớp sẽ hiển thị các đường cong huấn luyện và xác thực hội tụ nhanh chóng nhưng với tỷ lệ lỗi cao.
Để hiểu về underfitting, việc so sánh nó với đối trọng của nó, overfitting , sẽ rất hữu ích. Hai khái niệm này đại diện cho hai thái cực của sự đánh đổi giữa độ lệch và phương sai , vốn là yếu tố cốt lõi để xây dựng các hệ thống AI mạnh mẽ.
Mục tiêu của học sâu (DL) và các ngành AI khác là tìm ra "điểm lý tưởng" giữa hai thái cực này, tạo ra một mô hình đủ phức tạp để học các mẫu nhưng đủ đơn giản để khái quát hóa.
Một số yếu tố có thể dẫn đến tình trạng thiếu khớp, nhưng chúng thường có thể khắc phục được bằng cách điều chỉnh kiến trúc mô hình hoặc quy trình xử lý dữ liệu.
Trong bối cảnh thị giác máy tính, hiện tượng thiếu khớp thường xảy ra khi sử dụng một biến thể mô hình quá nhỏ so với độ khó của nhiệm vụ (ví dụ: phát hiện các vật thể nhỏ trong hình ảnh máy bay không người lái có độ phân giải cao). Sau đây là
Python Ví dụ minh họa cách chuyển từ mô hình nhỏ hơn sang mô hình lớn hơn, có khả năng hơn bằng cách sử dụng ultralytics thư viện để giải quyết tình trạng thiếu khớp tiềm ẩn.
from ultralytics import YOLO
# If 'yolo11n.pt' (Nano) is underfitting and yielding low accuracy,
# upgrade to a model with higher capacity like 'yolo11l.pt' (Large).
model = YOLO("yolo11l.pt")
# Train the larger model.
# Increasing epochs also helps the model converge if it was previously underfitting.
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Bằng cách chuyển sang mô hình Ultralytics YOLO11 lớn hơn và đảm bảo thời lượng huấn luyện phù hợp, hệ thống sẽ thu thập được các tham số cần thiết để học các mẫu phức tạp, từ đó giảm thiểu hiệu quả tình trạng thiếu khớp. Đối với các tác vụ cực kỳ phức tạp, các kiến trúc tương lai như YOLO26 (hiện đang được phát triển) hướng đến việc cung cấp mật độ và độ chính xác cao hơn nữa. Để xác minh mô hình của bạn không còn thiếu khớp, hãy luôn đánh giá nó dựa trên một tập dữ liệu thử nghiệm mạnh mẽ.