Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Underfitting

Tìm hiểu cách xác định, ngăn ngừa và giải quyết tình trạng underfitting trong các mô hình học máy với các mẹo, chiến lược và ví dụ thực tế từ các chuyên gia.

Trong học máy (ML), hiện tượng "underfitting" (không khớp) xảy ra khi một mô hình hoặc thuật toán thống kê quá đơn giản để nắm bắt cấu trúc cơ bản của dữ liệu. Nó mô tả một tình huống mà mô hình không thể học được mối quan hệ giữa các biến đầu vào và biến mục tiêu một cách đầy đủ. Do mô hình không nắm bắt được tín hiệu trong dữ liệu, hiệu suất của nó trên dữ liệu huấn luyện kém và khả năng khái quát hóa kém trên dữ liệu mới, chưa được biết đến. Một mô hình "underfit" thường có độ lệch cao, nghĩa là nó đưa ra những giả định mạnh, thường sai về dữ liệu, dẫn đến các mẫu bị bỏ sót và độ chính xác thấp.

Dấu hiệu và triệu chứng của việc không vừa vặn

Việc phát hiện tình trạng thiếu khớp (underfitting) thường khá dễ dàng trong giai đoạn đánh giá mô hình. Chỉ số chính là điểm số kém về các chỉ số hiệu suất, chẳng hạn như tỷ lệ lỗi cao hoặc độ chính xác thấp, trên cả tập huấn luyện và dữ liệu xác thực . Nếu hàm mất mát vẫn cao và không giảm đáng kể theo thời gian, mô hình có khả năng đang thiếu khớp. Không giống như tình trạng quá khớp, khi mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu xác thực, tình trạng thiếu khớp thể hiện việc mô hình không học được nhiệm vụ ngay từ đầu. Phân tích đường cong học tập có thể xác nhận trực quan hành vi này; một mô hình thiếu khớp sẽ hiển thị các đường cong huấn luyện và xác thực hội tụ nhanh chóng nhưng với tỷ lệ lỗi cao.

Phù hợp quá mức so với phù hợp quá mức

Để hiểu về underfitting, việc so sánh nó với đối trọng của nó, overfitting , sẽ rất hữu ích. Hai khái niệm này đại diện cho hai thái cực của sự đánh đổi giữa độ lệch và phương sai , vốn là yếu tố cốt lõi để xây dựng các hệ thống AI mạnh mẽ.

  • Underfitting (Độ lệch cao): Mô hình quá đơn giản (ví dụ: mô hình tuyến tính cho dữ liệu phi tuyến tính). Mô hình này không chú trọng đến dữ liệu huấn luyện và đơn giản hóa vấn đề quá mức.
  • Quá khớp (Phương sai cao): Mô hình quá phức tạp. Nó ghi nhớ dữ liệu huấn luyện, bao gồm cả nhiễu và các giá trị ngoại lai, khiến mô hình không thể khái quát hóa với các đầu vào mới.

Mục tiêu của học sâu (DL) và các ngành AI khác là tìm ra "điểm lý tưởng" giữa hai thái cực này, tạo ra một mô hình đủ phức tạp để học các mẫu nhưng đủ đơn giản để khái quát hóa.

Nguyên nhân phổ biến và giải pháp

Một số yếu tố có thể dẫn đến tình trạng thiếu khớp, nhưng chúng thường có thể khắc phục được bằng cách điều chỉnh kiến trúc mô hình hoặc quy trình xử lý dữ liệu.

  • Mô hình đơn giản: Sử dụng mô hình tuyến tính cho tập dữ liệu phi tuyến tính phức tạp là nguyên nhân thường gặp.
  • Tính năng không đủ: Mô hình có thể thiếu dữ liệu đầu vào cần thiết để đưa ra dự đoán chính xác.
  • Chính quy hóa quá mức: Các kỹ thuật được thiết kế để ngăn ngừa tình trạng quá khớp đôi khi có thể được áp dụng quá mức.
    • Giải pháp: Giảm các tham số liên quan đến chính quy hóa hoặc giảm tỷ lệ trong lớp bỏ học để cho phép mô hình có nhiều không gian học hơn.
  • Thời gian đào tạo không đủ: Việc dừng quá trình đào tạo quá sớm sẽ ngăn cản mô hình hội tụ.
    • Giải pháp: Đào tạo thêm nhiều kỷ nguyên , giúp thuật toán tối ưu hóa có nhiều thời gian hơn để giảm thiểu tổn thất.

Các ví dụ thực tế

  1. Dự đoán giá bất động sản: Hãy tưởng tượng việc sử dụng một mô hình hồi quy tuyến tính đơn giản để dự đoán giá nhà chỉ dựa trên diện tích. Giá nhà thực tế bị ảnh hưởng bởi các yếu tố phức tạp, phi tuyến tính như vị trí, chất lượng khu dân cư và xu hướng thị trường. Một mô hình tuyến tính sẽ không nắm bắt được những sắc thái này, dẫn đến kết quả mô hình dự đoán kém và thiếu chính xác, trong đó các ước tính luôn không chính xác.
  2. Chẩn đoán hình ảnh y tế: Trong AI chăm sóc sức khỏe , việc phát hiện khối u trong ảnh chụp MRI đòi hỏi phải xác định các hình dạng và kết cấu phức tạp. Nếu các nhà phát triển sử dụng mạng nông hoặc mô hình với rất ít tham số cho nhiệm vụ phát hiện vật thể này, mô hình có thể sẽ không phân biệt được khối u với mô khỏe mạnh. Nó thiếu "khả năng" học các đặc điểm chi tiết cần thiết để đạt được độ nhạy và độ đặc hiệu cao.

Xử lý lỗi không khớp với mã

Trong bối cảnh thị giác máy tính, hiện tượng thiếu khớp thường xảy ra khi sử dụng một biến thể mô hình quá nhỏ so với độ khó của nhiệm vụ (ví dụ: phát hiện các vật thể nhỏ trong hình ảnh máy bay không người lái có độ phân giải cao). Sau đây là Python Ví dụ minh họa cách chuyển từ mô hình nhỏ hơn sang mô hình lớn hơn, có khả năng hơn bằng cách sử dụng ultralytics thư viện để giải quyết tình trạng thiếu khớp tiềm ẩn.

from ultralytics import YOLO

# If 'yolo11n.pt' (Nano) is underfitting and yielding low accuracy,
# upgrade to a model with higher capacity like 'yolo11l.pt' (Large).
model = YOLO("yolo11l.pt")

# Train the larger model.
# Increasing epochs also helps the model converge if it was previously underfitting.
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Bằng cách chuyển sang mô hình Ultralytics YOLO11 lớn hơn và đảm bảo thời lượng huấn luyện phù hợp, hệ thống sẽ thu thập được các tham số cần thiết để học các mẫu phức tạp, từ đó giảm thiểu hiệu quả tình trạng thiếu khớp. Đối với các tác vụ cực kỳ phức tạp, các kiến trúc tương lai như YOLO26 (hiện đang được phát triển) hướng đến việc cung cấp mật độ và độ chính xác cao hơn nữa. Để xác minh mô hình của bạn không còn thiếu khớp, hãy luôn đánh giá nó dựa trên một tập dữ liệu thử nghiệm mạnh mẽ.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay