Khám phá tầm quan trọng của trọng số mô hình trong máy học, vai trò của chúng trong dự đoán và cách Ultralytics YOLO đơn giản hóa việc sử dụng chúng cho các tác vụ AI.
Trọng số mô hình (Model weights) là các tham số số trong một mạng nơ-ron (neural network) được điều chỉnh trong quá trình huấn luyện (training process). Về cơ bản, các giá trị này đại diện cho kiến thức đã học của một mô hình. Hãy coi chúng như các hệ số trong một phương trình rất phức tạp; bằng cách điều chỉnh các hệ số này, mô hình học cách ánh xạ dữ liệu đầu vào, chẳng hạn như một hình ảnh, đến một đầu ra mong muốn, chẳng hạn như một khung giới hạn (bounding box) xung quanh một đối tượng. Chất lượng của trọng số mô hình quyết định trực tiếp hiệu suất của nó trên một tác vụ nhất định, chẳng hạn như phân loại hình ảnh (image classification) hoặc phát hiện đối tượng (object detection).
Trọng số mô hình (Model weights) không được đặt thủ công mà được "học" từ dữ liệu. Quá trình này bắt đầu bằng cách khởi tạo các trọng số thành các số ngẫu nhiên nhỏ. Trong quá trình huấn luyện, mô hình đưa ra dự đoán trên dữ liệu huấn luyện (training data) và một hàm mất mát (loss function) tính toán mức độ sai lệch của các dự đoán này. Tín hiệu lỗi này sau đó được sử dụng trong một quá trình gọi là lan truyền ngược (backpropagation) để tính toán gradient của mất mát đối với từng trọng số. Một thuật toán tối ưu hóa (optimization algorithm), chẳng hạn như Stochastic Gradient Descent (SGD), sau đó điều chỉnh các trọng số theo hướng ngược lại của gradient để giảm thiểu lỗi. Chu kỳ này được lặp lại trong nhiều epochs (vòng lặp) cho đến khi hiệu suất của mô hình trên một tập dữ liệu xác thực (validation dataset) riêng biệt ngừng cải thiện, một dấu hiệu cho thấy nó đã học được các mẫu trong dữ liệu.
Huấn luyện một mô hình hiện đại từ đầu đòi hỏi tài nguyên tính toán rất lớn và bộ dữ liệu khổng lồ. Để khắc phục điều này, cộng đồng thị giác máy tính sử dụng rộng rãi trọng số được huấn luyện trước. Điều này bao gồm việc lấy một mô hình, như một mô hình Ultralytics YOLO, đã được huấn luyện trên một bộ dữ liệu mục đích chung lớn, chẳng hạn như COCO. Các trọng số này đóng vai trò là một điểm khởi đầu tuyệt vời cho một nhiệm vụ cụ thể mới thông qua một quy trình gọi là học chuyển giao. Bằng cách bắt đầu với trọng số được huấn luyện trước, bạn có thể đạt được độ chính xác cao hơn với ít dữ liệu hơn và thời gian huấn luyện ngắn hơn thông qua một quy trình được gọi là tinh chỉnh.
Điều quan trọng là phân biệt trọng số mô hình (model weights) với các thuật ngữ liên quan khác trong máy học:
Khi các mô hình trở nên phức tạp hơn, việc quản lý trọng số của chúng và các thử nghiệm tạo ra chúng trở nên quan trọng đối với khả năng tái tạo và cộng tác. Các công cụ như Weights & Biases (W&B) cung cấp một nền tảng dành riêng cho MLOps, cho phép các nhóm theo dõi các siêu tham số, số liệu, phiên bản mã và trọng số mô hình kết quả cho mỗi thử nghiệm. Điều quan trọng cần lưu ý là nền tảng "Weights & Biases" khác biệt với các khái niệm về "trọng số" và "độ lệch" như các tham số trong mạng nơ-ron; nền tảng này giúp quản lý quá trình tìm kiếm trọng số và độ lệch tối ưu. Bạn có thể tìm hiểu thêm về tích hợp Ultralytics với W&B trong tài liệu. Quản lý hiệu quả là chìa khóa cho các tác vụ từ điều chỉnh siêu tham số đến triển khai mô hình bằng cách sử dụng các framework như PyTorch hoặc TensorFlow. Các nền tảng như Ultralytics HUB cũng cung cấp các giải pháp tích hợp để quản lý toàn bộ vòng đời mô hình.