Khám phá tầm quan trọng của dữ liệu huấn luyện (training data) trong AI. Tìm hiểu cách các bộ dữ liệu chất lượng cung cấp sức mạnh cho các mô hình học máy (machine learning) chính xác và mạnh mẽ cho các tác vụ trong thế giới thực.
Dữ liệu huấn luyện đóng vai trò như sách giáo khoa cơ bản cho các thuật toán học máy (ML) , cung cấp các ví dụ cần thiết để chúng học và thực hiện các nhiệm vụ. Trong lĩnh vực trí tuệ nhân tạo (AI) rộng lớn, dữ liệu này bao gồm thông tin đầu vào—chẳng hạn như hình ảnh, văn bản hoặc âm thanh—được ghép nối với đầu ra chính xác, thường được gọi là "sự thật cơ bản". Thông qua một quy trình gọi là học có giám sát , mô hình phân tích các cặp này để nhận dạng các mẫu, hiểu các mối quan hệ phức tạp và cuối cùng dự đoán kết quả trên thông tin mới, chưa từng thấy.
Hiệu suất của bất kỳ hệ thống AI nào đều gắn liền mật thiết với chất lượng và số lượng dữ liệu huấn luyện của nó. Khái niệm này, thường được tóm tắt trong khoa học dữ liệu là "đầu vào rác, đầu ra rác", có nghĩa là nếu các ví dụ đầu vào bị lỗi hoặc thiên vị, trọng số của mô hình thu được sẽ không tối ưu. Dữ liệu huấn luyện chất lượng cao phải chính xác, đa dạng và đại diện cho môi trường thực tế mà mô hình sẽ hoạt động.
Để đảm bảo các tập dữ liệu đáp ứng các tiêu chuẩn này, các nhà phát triển sử dụng việc gắn nhãn dữ liệu để chú thích tỉ mỉ các dữ liệu đầu vào bằng các thẻ chính xác, chẳng hạn như hộp giới hạn cho các tác vụ phát hiện. Hơn nữa, các kỹ thuật tăng cường dữ liệu thường được sử dụng để thay đổi hình ảnh hiện có bằng toán học—bằng cách xoay, lật hoặc điều chỉnh độ phơi sáng—để mở rộng tập dữ liệu một cách nhân tạo và cải thiện khả năng khái quát hóa của mô hình.
Mặc dù thường được gộp chung thành "tập dữ liệu", điều quan trọng là phải phân biệt dữ liệu huấn luyện với các tập con cụ thể khác được sử dụng trong suốt vòng đời huấn luyện mô hình .
Dữ liệu huấn luyện là nền tảng cho sự thành công của các giải pháp AI hiện đại trong hầu hết mọi ngành nghề.
Các ultralytics Thư viện này giúp đơn giản hóa việc sử dụng dữ liệu huấn luyện cho
tầm nhìn máy tính (CV) các tác vụ. Khung phần mềm sử dụng các tệp cấu hình YAML để xác định đường dẫn đến các tập dữ liệu huấn luyện và xác thực. Ví dụ sau đây minh họa cách huấn luyện mô hình tiên tiến nhất. YOLO26 mô hình trên
COCO8 tập dữ liệuMột bộ dữ liệu minh họa nhỏ được bao gồm để thử nghiệm nhanh.
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and accuracy
model = YOLO("yolo26n.pt")
# Train the model using the dataset defined in 'coco8.yaml'
# The 'data' argument points to the training data configuration
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
Đối với những người bắt đầu các dự án mới, việc tìm kiếm dữ liệu huấn luyện chất lượng cao là bước đầu tiên. Các kho dữ liệu như Google Dataset Search và Kaggle Datasets cung cấp nhiều tùy chọn cho mọi thứ, từ phân đoạn hình ảnh đến xử lý ngôn ngữ tự nhiên. Đảm bảo dữ liệu của bạn không bị thiên vị là điều cực kỳ quan trọng đối với việc phát triển AI có trách nhiệm . Khi các dự án mở rộng quy mô, các công cụ như Ultralytics Platform trở nên thiết yếu để tìm nguồn, chú thích và quản lý các tập dữ liệu này một cách hiệu quả.