Khám phá cách hàm mất mát hướng dẫn quá trình huấn luyện mô hình. Tìm hiểu cách giảm thiểu lỗi cho các tác vụ như phát hiện đối tượng với Ultralytics YOLO26 và tối ưu hóa hiệu suất AI.
Hàm mất mát đóng vai trò như la bàn toán học hướng dẫn quá trình huấn luyện mạng nơ-ron nhân tạo và các thuật toán học máy khác. Về cơ bản, nó định lượng sai số giữa đầu ra dự đoán của mô hình và nhãn "thực tế" được tìm thấy trong dữ liệu huấn luyện . Bạn có thể hình dung nó như một hệ thống chấm điểm, trong đó điểm số thấp hơn cho thấy hiệu suất tốt hơn. Trong quá trình huấn luyện, mục tiêu chính là giảm thiểu giá trị mất mát này một cách lặp đi lặp lại. Việc giảm thiểu này cho phép mô hình điều chỉnh các tham số nội bộ của nó để phù hợp hơn với dự đoán của nó với thực tế, một quá trình được thúc đẩy bởi thuật toán tối ưu hóa như... Adam hoặc Thuật toán Giảm độ dốc ngẫu nhiên ( SGD ) .
Cơ chế học tập trong trí tuệ nhân tạo phụ thuộc rất nhiều vào vòng phản hồi được tạo ra bởi hàm mất mát. Sau khi mô hình xử lý một tập dữ liệu, hàm mất mát sẽ tính toán một giá trị lỗi số biểu thị khoảng cách giữa dự đoán và mục tiêu. Thông qua kỹ thuật lan truyền ngược (backpropagation) , hệ thống tính toán độ dốc của hàm mất mát đối với từng trọng số của mô hình . Các độ dốc này hoạt động như một bản đồ, chỉ ra hướng và độ lớn của các điều chỉnh cần thiết để giảm lỗi. Tốc độ học (learning rate) sau đó kiểm soát kích thước của các bước được thực hiện trong quá trình cập nhật này, đảm bảo mô hình hội tụ về một giải pháp tối ưu mà không bị vượt quá.
Các nhiệm vụ học máy khác nhau đòi hỏi các loại hàm mất mát cụ thể. Đối với phân tích hồi quy, trong đó mục tiêu là dự đoán các giá trị liên tục như giá nhà, Sai số bình phương trung bình (MSE) là một lựa chọn tiêu chuẩn. Ngược lại, đối với các nhiệm vụ phân loại hình ảnh liên quan đến dữ liệu phân loại, Hàm mất mát entropy chéo thường được sử dụng để đo lường sự khác biệt giữa xác suất dự đoán và lớp thực. Các mô hình phát hiện đối tượng tiên tiến, chẳng hạn như YOLO26 , sử dụng các hàm mất mát tổng hợp tối ưu hóa nhiều mục tiêu cùng một lúc, kết hợp các chỉ số như Giao điểm trên Hợp nhất ( IoU ) để định vị và các công thức chuyên biệt như Hàm mất mát tiêu điểm phân phối (DFL) hoặc Hàm mất mát tiêu điểm biến đổi để đánh giá độ tin cậy của lớp.
Hàm mất mát là động lực đằng sau độ tin cậy của hầu hết mọi ứng dụng trí tuệ nhân tạo, đảm bảo các hệ thống có thể hoạt động an toàn trong môi trường phức tạp.
Mặc dù các framework cấp cao như Ultralytics Platform tự động tính toán tổn thất trong quá trình huấn luyện, việc hiểu rõ các phép toán cơ bản rất hữu ích cho việc gỡ lỗi. Ví dụ sau đây sử dụng PyTorch —phần phụ trợ cho Ultralytics các mô hình—để tính toán sự chênh lệch giữa dự đoán và mục tiêu.
import torch
import torch.nn as nn
# Define the loss function (CrossEntropyLoss includes Softmax)
loss_fn = nn.CrossEntropyLoss()
# Mock model output (logits) for 3 classes and the true class (Class 0)
# A high score for index 0 indicates a correct prediction
predictions = torch.tensor([[2.5, 0.1, -1.2]])
ground_truth = torch.tensor([0])
# Calculate the numerical loss value
loss = loss_fn(predictions, ground_truth)
print(f"Calculated Loss: {loss.item():.4f}")
Điều quan trọng là phải phân biệt hàm mất mát với các chỉ số khác được sử dụng trong toàn bộ quy trình học máy.