Tìm hiểu cách dữ liệu huấn luyện hỗ trợ các mô hình AI. Khám phá cách thu thập, chú thích và huấn luyện dữ liệu. Ultralytics YOLO26 mang lại độ chính xác vượt trội trong các tác vụ thị giác máy tính.
Dữ liệu huấn luyện là tập dữ liệu ban đầu được sử dụng để dạy mô hình học máy cách nhận dạng mẫu, đưa ra dự đoán hoặc thực hiện các nhiệm vụ cụ thể. Nó đóng vai trò như cuốn sách giáo khoa nền tảng cho các hệ thống trí tuệ nhân tạo, cung cấp dữ liệu thực tế mà thuật toán phân tích để điều chỉnh các tham số nội bộ của nó. Trong bối cảnh học có giám sát, dữ liệu huấn luyện bao gồm các mẫu đầu vào được ghép nối với các nhãn đầu ra tương ứng, cho phép mô hình học được mối quan hệ giữa hai yếu tố này. Chất lượng, số lượng và sự đa dạng của dữ liệu này ảnh hưởng trực tiếp đến độ chính xác cuối cùng và khả năng khái quát hóa của mô hình đối với thông tin mới, chưa từng thấy.
Chức năng chính của dữ liệu huấn luyện là giảm thiểu sai số giữa dự đoán của mô hình và kết quả thực tế. Trong quá trình huấn luyện mô hình , thuật toán xử lý dữ liệu một cách lặp đi lặp lại, xác định các đặc điểm—chẳng hạn như các cạnh trong hình ảnh hoặc từ khóa trong câu—có tương quan với các nhãn cụ thể. Quá trình này khác với dữ liệu xác thực , được sử dụng để điều chỉnh các siêu tham số trong quá trình huấn luyện, và dữ liệu kiểm thử , được dành riêng cho việc đánh giá cuối cùng hiệu suất của mô hình.
Dữ liệu huấn luyện chất lượng cao phải đại diện cho các tình huống thực tế mà mô hình sẽ gặp phải. Nếu tập dữ liệu chứa thông tin sai lệch hoặc thiếu tính đa dạng, mô hình có thể bị quá khớp (overfitting) , nghĩa là nó ghi nhớ các ví dụ huấn luyện nhưng lại hoạt động kém hiệu quả với các dữ liệu đầu vào mới. Ngược lại, hiện tượng thiếu khớp (underfitting) xảy ra khi dữ liệu quá đơn giản hoặc không đủ để mô hình nắm bắt được các mẫu cơ bản.
Dữ liệu huấn luyện thúc đẩy sự đổi mới trong hầu hết mọi ngành công nghiệp bằng cách cho phép các hệ thống học hỏi từ các ví dụ trong quá khứ.
Việc thu thập dữ liệu huấn luyện mạnh mẽ thường là phần khó khăn nhất trong một dự án máy học. Dữ liệu có thể được lấy từ các kho lưu trữ công cộng như Google Dataset Search hoặc các bộ sưu tập chuyên biệt như COCO để phát hiện đối tượng. Tuy nhiên, dữ liệu thô thường yêu cầu làm sạch và chú thích dữ liệu cẩn thận để đảm bảo độ chính xác.
Các công cụ như Nền tảng Ultralytics đã đơn giản hóa quy trình làm việc này, cung cấp một môi trường tích hợp để tải lên, gắn nhãn và quản lý tập dữ liệu. Quản lý hiệu quả cũng bao gồm việc tăng cường dữ liệu , một kỹ thuật được sử dụng để tăng kích thước tập dữ liệu huấn luyện một cách nhân tạo bằng cách áp dụng các phép biến đổi—chẳng hạn như lật, xoay hoặc điều chỉnh màu sắc—cho các hình ảnh hiện có. Điều này giúp các mô hình trở nên mạnh mẽ hơn trước các biến thể trong dữ liệu đầu vào.
Sau đây Python Ví dụ này minh họa cách bắt đầu quá trình đào tạo bằng cách sử dụng... ultralytics thư viện. Ở đây, một thư viện được đào tạo trước. YOLO26 mô hình được tinh chỉnh trên
COCO8 tập dữ liệu, một tập dữ liệu nhỏ được thiết kế để xác minh các quy trình huấn luyện.
from ultralytics import YOLO
# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
Câu ngạn ngữ "đầu vào rác, đầu ra rác" là nền tảng của học máy. Ngay cả những kiến trúc phức tạp nhất, chẳng hạn như Transformer hay Mạng nơ-ron tích chập sâu (CNN) , cũng không thể bù đắp cho dữ liệu huấn luyện kém chất lượng. Các vấn đề như nhiễu nhãn, trong đó nhãn thực tế không chính xác, có thể làm giảm hiệu suất nghiêm trọng. Do đó, các quy trình đảm bảo chất lượng nghiêm ngặt, thường bao gồm xác minh có sự tham gia của con người , là rất cần thiết để duy trì tính toàn vẹn của tập dữ liệu.
Hơn nữa, việc tuân thủ các nguyên tắc đạo đức AI đòi hỏi dữ liệu huấn luyện phải được kiểm tra kỹ lưỡng để loại bỏ các thành kiến về nhân khẩu học hoặc kinh tế xã hội. Đảm bảo tính công bằng trong AI bắt đầu từ một tập dữ liệu huấn luyện cân bằng và mang tính đại diện, giúp ngăn ngừa các kết quả phân biệt đối xử trong các ứng dụng được triển khai.