Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Underfitting

Tìm hiểu cách xác định, ngăn ngừa và giải quyết tình trạng underfitting trong các mô hình học máy với các mẹo, chiến lược và ví dụ thực tế từ các chuyên gia.

Underfitting là một vấn đề phổ biến trong học máy (ML), trong đó một mô hình quá đơn giản để nắm bắt các mẫu cơ bản trong dữ liệu huấn luyện. Sự đơn giản này ngăn cản nó học mối quan hệ giữa các đặc trưng đầu vào và biến mục tiêu, dẫn đến hiệu suất kém trên cả dữ liệu mà nó được huấn luyện và dữ liệu mới, chưa từng thấy. Một mô hình underfit có độ chệch cao, có nghĩa là nó đưa ra các giả định mạnh mẽ, thường không chính xác về dữ liệu. Điều này dẫn đến một mô hình không đạt được mức độ chính xác cao và không thể khái quát hóa tốt.

Underfitting so với Overfitting

Underfitting (học chưa đủ) và overfitting (học quá mức) là hai thách thức chính trong ML liên quan đến khả năng khái quát hóa từ dữ liệu huấn luyện sang dữ liệu mới của mô hình. Chúng đại diện cho hai thái cực trên phổ phức tạp của mô hình.

  • Underfitting (Thiếu khớp): Mô hình quá đơn giản và có độ lệch cao. Nó không học được cấu trúc cơ bản của dữ liệu, dẫn đến giá trị hàm mất mát (loss function) cao và hiệu suất kém trên cả bộ dữ liệu huấn luyệnxác thực.
  • Quá khớp (Overfitting): Mô hình quá phức tạp và có phương sai cao. Nó học dữ liệu huấn luyện quá tốt, bao gồm cả nhiễu và các biến động ngẫu nhiên. Điều này dẫn đến hiệu suất tuyệt vời trên tập huấn luyện nhưng hiệu suất kém trên dữ liệu chưa thấy, vì mô hình về cơ bản đã ghi nhớ các ví dụ huấn luyện thay vì học các mẫu tổng quát.

Mục tiêu cuối cùng trong ML là đạt được sự cân bằng giữa hai điều này, một khái niệm được gọi là sự đánh đổi giữa độ chệch và phương sai (bias-variance tradeoff), để tạo ra một mô hình khái quát hóa hiệu quả cho các tình huống thực tế mới. Phân tích đường cong học tập (learning curves) là một phương pháp phổ biến để chẩn đoán xem một mô hình có bị underfitting, overfitting hay well-fitted hay không.

Nguyên nhân và giải pháp cho Underfitting (học chưa đủ)

Việc xác định và giải quyết tình trạng underfitting là rất quan trọng để xây dựng các mô hình hiệu quả. Vấn đề này thường xuất phát từ một vài nguyên nhân phổ biến, mỗi nguyên nhân đều có các giải pháp tương ứng.

  • Mô hình quá đơn giản: Sử dụng mô hình tuyến tính cho một bài toán phi tuyến tính phức tạp là một nguyên nhân điển hình của underfitting.
    • Giải pháp: Tăng độ phức tạp của mô hình. Điều này có thể liên quan đến việc chuyển sang một kiến trúc mô hình mạnh mẽ hơn, chẳng hạn như mạng nơ-ron sâu hơn hoặc một mô hình được đào tạo trước lớn hơn, chẳng hạn như chuyển từ một biến thể mô hình Ultralytics YOLO nhỏ hơn sang lớn hơn. Bạn có thể khám phá nhiều so sánh mô hình YOLO khác nhau để chọn một kiến trúc phù hợp hơn.
  • Các đặc trưng không đầy đủ hoặc chất lượng kém: Nếu các đặc trưng đầu vào cung cấp cho mô hình không chứa đủ thông tin để đưa ra các dự đoán chính xác, mô hình sẽ bị underfit.
  • Huấn luyện không đủ: Mô hình có thể chưa được huấn luyện đủ epochs để tìm hiểu các mẫu trong dữ liệu.
  • Điều chuẩn hóa quá mức: Các kỹ thuật như Điều chuẩn hóa L1 và L2 hoặc cao dropout được sử dụng để ngăn chặn tình trạng overfitting, nhưng nếu chúng quá mạnh, chúng có thể hạn chế mô hình quá nhiều và gây ra tình trạng underfitting.

Các Ví Dụ Thực Tế về Underfitting

  1. Bộ phân loại hình ảnh đơn giản: Hãy tưởng tượng việc huấn luyện một Mạng nơ-ron tích chập (CNN) rất cơ bản chỉ với một hoặc hai lớp trên một tác vụ phân loại hình ảnh phức tạp, chẳng hạn như xác định hàng ngàn danh mục đối tượng trong tập dữ liệu ImageNet. Dung lượng hạn chế của mô hình sẽ ngăn nó học các đặc trưng phức tạp cần thiết để phân biệt giữa rất nhiều lớp, dẫn đến độ chính xác thấp trên cả dữ liệu huấn luyện và kiểm tra. Các framework như PyTorchTensorFlow cung cấp các công cụ để xây dựng các kiến trúc phức tạp hơn để khắc phục điều này.
  2. Bảo trì dự đoán cơ bản: Hãy xem xét sử dụng một mô hình hồi quy tuyến tính đơn giản để mô hình hóa dự đoán để ước tính khi nào một máy sẽ hỏng chỉ dựa trên nhiệt độ hoạt động của nó. Nếu sự cố máy móc thực sự bị ảnh hưởng bởi sự tương tác phi tuyến tính phức tạp của các yếu tố như độ rung, tuổi tác và áp suất, thì mô hình tuyến tính đơn giản sẽ không phù hợp. Nó không thể nắm bắt được sự phức tạp thực sự của hệ thống, dẫn đến hiệu suất dự đoán kém và không có khả năng dự đoán chính xác các lỗi. Một mô hình phức tạp hơn, như một máy tăng cường độ dốc (gradient boosting machine) hoặc một mạng nơ-ron, sẽ phù hợp hơn.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard