Thuật ngữ

Không vừa vặn

Tìm hiểu cách xác định, ngăn ngừa và giải quyết tình trạng thiếu phù hợp trong các mô hình học máy bằng các mẹo, chiến lược của chuyên gia và ví dụ thực tế.

Underfitting là một vấn đề phổ biến trong học máy (ML), trong đó một mô hình quá đơn giản để nắm bắt các mẫu cơ bản trong dữ liệu huấn luyện. Sự đơn giản này ngăn cản mô hình học mối quan hệ giữa các đặc trưng đầu vào và biến mục tiêu, dẫn đến hiệu suất kém trên cả dữ liệu được huấn luyện và dữ liệu mới, chưa được biết đến. Mô hình underfitting có độ lệch cao, nghĩa là nó đưa ra những giả định mạnh, thường không chính xác, về dữ liệu. Điều này dẫn đến mô hình không đạt được độ chính xác cao và không thể khái quát hóa tốt.

Phù hợp quá mức so với phù hợp quá mức

Underfitting và overfitting là hai thách thức chính trong ML liên quan đến khả năng khái quát hóa của mô hình từ dữ liệu huấn luyện sang dữ liệu mới. Chúng đại diện cho hai thái cực trên phổ độ phức tạp của mô hình.

  • Thiếu khớp : Mô hình quá đơn giản và có độ lệch cao. Nó không học được cấu trúc cơ bản của dữ liệu, dẫn đến giá trị hàm mất mát cao và hiệu suất kém trên cả tập dữ liệu huấn luyện và tập dữ liệu xác thực .
  • Quá khớp : Mô hình quá phức tạp và có phương sai cao. Nó học dữ liệu huấn luyện quá tốt, bao gồm cả nhiễu và biến động ngẫu nhiên. Điều này dẫn đến hiệu suất tuyệt vời trên tập huấn luyện nhưng lại kém trên dữ liệu chưa biết, vì về cơ bản, mô hình đã ghi nhớ các ví dụ huấn luyện thay vì học các mẫu chung.

Mục tiêu cuối cùng của ML là đạt được sự cân bằng giữa hai yếu tố này, một khái niệm được gọi là sự đánh đổi giữa độ lệch và phương sai , để tạo ra một mô hình có khả năng tổng quát hóa hiệu quả với các tình huống thực tế mới. Phân tích đường cong học tập là một phương pháp phổ biến để chẩn đoán xem một mô hình đang thiếu khớp, quá khớp hay khớp tốt.

Nguyên nhân và giải pháp cho tình trạng thiếu vừa vặn

Việc xác định và giải quyết hiện tượng thiếu khớp là rất quan trọng để xây dựng các mô hình hiệu quả. Vấn đề thường bắt nguồn từ một vài nguyên nhân phổ biến, mỗi nguyên nhân có giải pháp tương ứng.

  • Mô hình quá đơn giản:Sử dụng mô hình tuyến tính cho một vấn đề phức tạp, phi tuyến tính là nguyên nhân điển hình gây ra hiện tượng thiếu khớp.
  • Tính năng không đủ hoặc kém chất lượng:Nếu các tính năng đầu vào được cung cấp cho mô hình không chứa đủ thông tin để đưa ra dự đoán chính xác, mô hình sẽ không phù hợp.
  • Đào tạo không đủ: Mô hình có thể chưa được đào tạo đủ thời đại để tìm hiểu các mẫu trong dữ liệu.
  • Chính quy hóa quá mức: Các kỹ thuật như Chính quy hóa L1 và L2 hoặc cao bỏ học tỷ lệ được sử dụng để ngăn ngừa tình trạng quá khớp, nhưng nếu chúng quá mạnh, chúng có thể hạn chế mô hình quá nhiều và gây ra tình trạng không khớp.
    • Giải pháp : Giảm lượng chính quy hóa. Điều này có thể đồng nghĩa với việc giảm số hạng phạt trong các hàm chính quy hóa hoặc giảm tỷ lệ bỏ học. Việc tuân thủ các phương pháp hay nhất để huấn luyện mô hình có thể giúp tìm ra sự cân bằng phù hợp.

Ví dụ thực tế về việc thiếu khớp

  1. Bộ phân loại hình ảnh đơn giản : Hãy tưởng tượng việc huấn luyện một Mạng nơ-ron tích chập (CNN) rất cơ bản chỉ với một hoặc hai lớp cho một tác vụ phân loại hình ảnh phức tạp, chẳng hạn như xác định hàng nghìn danh mục đối tượng trong tập dữ liệu ImageNet . Khả năng hạn chế của mô hình sẽ khiến nó không thể học các đặc điểm phức tạp cần thiết để phân biệt giữa rất nhiều lớp, dẫn đến độ chính xác thấp trên cả dữ liệu huấn luyện và dữ liệu kiểm tra . Các nền tảng như PyTorchTensorFlow cung cấp các công cụ để xây dựng các kiến trúc phức tạp hơn nhằm khắc phục vấn đề này.
  2. Bảo trì Dự đoán Cơ bản : Cân nhắc sử dụng mô hình hồi quy tuyến tính đơn giản cho mô hình dự đoán để ước tính thời điểm máy móc sẽ hỏng chỉ dựa trên nhiệt độ vận hành. Nếu sự cố máy móc thực sự bị ảnh hưởng bởi sự tương tác phức tạp, phi tuyến tính của các yếu tố như độ rung, tuổi thọ và áp suất, mô hình tuyến tính đơn giản sẽ không phù hợp. Nó không thể nắm bắt được độ phức tạp thực sự của hệ thống, dẫn đến hiệu suất dự đoán kém và không thể dự đoán chính xác các sự cố. Một mô hình phức tạp hơn, chẳng hạn như máy tăng cường gradient hoặc mạng nơ-ron, sẽ phù hợp hơn.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard