Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Dữ Liệu Huấn Luyện

Khám phá tầm quan trọng của dữ liệu huấn luyện (training data) trong AI. Tìm hiểu cách các bộ dữ liệu chất lượng cung cấp sức mạnh cho các mô hình học máy (machine learning) chính xác và mạnh mẽ cho các tác vụ trong thế giới thực.

Dữ liệu huấn luyện đóng vai trò như sách giáo khoa cơ bản cho các thuật toán học máy (ML) , cung cấp các ví dụ cần thiết để chúng học và thực hiện các nhiệm vụ. Trong lĩnh vực trí tuệ nhân tạo (AI) rộng lớn, dữ liệu này bao gồm thông tin đầu vào—chẳng hạn như hình ảnh, văn bản hoặc âm thanh—được ghép nối với đầu ra chính xác, thường được gọi là "sự thật cơ bản". Thông qua một quy trình gọi là học có giám sát , mô hình phân tích các cặp này để nhận dạng các mẫu, hiểu các mối quan hệ phức tạp và cuối cùng dự đoán kết quả trên thông tin mới, chưa từng thấy.

Nền tảng của độ chính xác mô hình

Hiệu suất của bất kỳ hệ thống AI nào đều gắn liền mật thiết với chất lượng và số lượng dữ liệu huấn luyện của nó. Khái niệm này, thường được tóm tắt trong khoa học dữ liệu là "đầu vào rác, đầu ra rác", có nghĩa là nếu các ví dụ đầu vào bị lỗi hoặc thiên vị, trọng số của mô hình thu được sẽ không tối ưu. Dữ liệu huấn luyện chất lượng cao phải chính xác, đa dạng và đại diện cho môi trường thực tế mà mô hình sẽ hoạt động.

Để đảm bảo các tập dữ liệu đáp ứng các tiêu chuẩn này, các nhà phát triển sử dụng việc gắn nhãn dữ liệu để chú thích tỉ mỉ các dữ liệu đầu vào bằng các thẻ chính xác, chẳng hạn như hộp giới hạn cho các tác vụ phát hiện. Hơn nữa, các kỹ thuật tăng cường dữ liệu thường được sử dụng để thay đổi hình ảnh hiện có bằng toán học—bằng cách xoay, lật hoặc điều chỉnh độ phơi sáng—để mở rộng tập dữ liệu một cách nhân tạo và cải thiện khả năng khái quát hóa của mô hình.

Phân biệt dữ liệu huấn luyện với các tập con khác

Mặc dù thường được gộp chung thành "tập dữ liệu", điều quan trọng là phải phân biệt dữ liệu huấn luyện với các tập con cụ thể khác được sử dụng trong suốt vòng đời huấn luyện mô hình .

  • Dữ liệu huấn luyện: Phần lớn nhất của tập dữ liệu (thường là 70-80%), được sử dụng trực tiếp để điều chỉnh các tham số của mô hình. Mô hình "nhìn thấy" dữ liệu này nhiều lần để giảm thiểu tỷ lệ lỗi.
  • Dữ liệu kiểm định : Một tập con riêng biệt được sử dụng trong quá trình huấn luyện để đánh giá hiệu suất và tinh chỉnh các siêu tham số . Điều này giúp ngăn ngừa hiện tượng quá khớp , trong đó mô hình ghi nhớ các ví dụ huấn luyện nhưng lại thất bại trên dữ liệu mới.
  • Dữ liệu kiểm thử : Một tập dữ liệu hoàn hảo được giữ lại cho đến phút cuối cùng. Nó cung cấp một đánh giá cuối cùng khách quan về độ chính xác và tính ổn định của mô hình.

Các Ứng dụng Thực tế

Dữ liệu huấn luyện là nền tảng cho sự thành công của các giải pháp AI hiện đại trong hầu hết mọi ngành nghề.

  1. Trí tuệ nhân tạo trong ngành ô tô : Xe tự lái dựa vào các thư viện dữ liệu đường bộ khổng lồ, chẳng hạn như Waymo Open Dataset hoặc nuScenes , để di chuyển an toàn. Bằng cách huấn luyện trên hàng triệu khung hình chứa người đi bộ, biển báo giao thông và phương tiện được gắn nhãn, những chiếc xe này học cách diễn giải môi trường năng động trong thời gian thực.
  2. Trí tuệ nhân tạo trong chăm sóc sức khỏe : Trong phân tích hình ảnh y tế , các mô hình chẩn đoán được huấn luyện trên các tập dữ liệu như tập dữ liệu phát hiện u não . Bằng cách phân tích hàng nghìn hình ảnh quét được đánh dấu với các bệnh lý cụ thể, các mô hình này hỗ trợ các bác sĩ X quang bằng cách làm nổi bật các bất thường tiềm ẩn với độ chính xác cao.

Ví dụ thực tế với Ultralytics YOLO26

Các ultralytics Thư viện này giúp đơn giản hóa việc sử dụng dữ liệu huấn luyện cho tầm nhìn máy tính (CV) các tác vụ. Khung phần mềm sử dụng các tệp cấu hình YAML để xác định đường dẫn đến các tập dữ liệu huấn luyện và xác thực. Ví dụ sau đây minh họa cách huấn luyện mô hình tiên tiến nhất. YOLO26 mô hình trên COCO8 tập dữ liệuMột bộ dữ liệu minh họa nhỏ được bao gồm để thử nghiệm nhanh.

from ultralytics import YOLO

# Load the YOLO26 Nano model, optimized for speed and accuracy
model = YOLO("yolo26n.pt")

# Train the model using the dataset defined in 'coco8.yaml'
# The 'data' argument points to the training data configuration
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Thu thập và quản lý dữ liệu

Đối với những người bắt đầu các dự án mới, việc tìm kiếm dữ liệu huấn luyện chất lượng cao là bước đầu tiên. Các kho dữ liệu như Google Dataset SearchKaggle Datasets cung cấp nhiều tùy chọn cho mọi thứ, từ phân đoạn hình ảnh đến xử lý ngôn ngữ tự nhiên. Đảm bảo dữ liệu của bạn không bị thiên vị là điều cực kỳ quan trọng đối với việc phát triển AI có trách nhiệm . Khi các dự án mở rộng quy mô, các công cụ như Ultralytics Platform trở nên thiết yếu để tìm nguồn, chú thích và quản lý các tập dữ liệu này một cách hiệu quả.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay