Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Dữ Liệu Huấn Luyện

Tìm hiểu cách dữ liệu huấn luyện hỗ trợ các mô hình AI. Khám phá cách thu thập, chú thích và huấn luyện dữ liệu. Ultralytics YOLO26 mang lại độ chính xác vượt trội trong các tác vụ thị giác máy tính.

Dữ liệu huấn luyện là tập dữ liệu ban đầu được sử dụng để dạy mô hình học máy cách nhận dạng mẫu, đưa ra dự đoán hoặc thực hiện các nhiệm vụ cụ thể. Nó đóng vai trò như cuốn sách giáo khoa nền tảng cho các hệ thống trí tuệ nhân tạo, cung cấp dữ liệu thực tế mà thuật toán phân tích để điều chỉnh các tham số nội bộ của nó. Trong bối cảnh học có giám sát, dữ liệu huấn luyện bao gồm các mẫu đầu vào được ghép nối với các nhãn đầu ra tương ứng, cho phép mô hình học được mối quan hệ giữa hai yếu tố này. Chất lượng, số lượng và sự đa dạng của dữ liệu này ảnh hưởng trực tiếp đến độ chính xác cuối cùng và khả năng khái quát hóa của mô hình đối với thông tin mới, chưa từng thấy.

Vai trò của dữ liệu huấn luyện trong trí tuệ nhân tạo

Chức năng chính của dữ liệu huấn luyện là giảm thiểu sai số giữa dự đoán của mô hình và kết quả thực tế. Trong quá trình huấn luyện mô hình , thuật toán xử lý dữ liệu một cách lặp đi lặp lại, xác định các đặc điểm—chẳng hạn như các cạnh trong hình ảnh hoặc từ khóa trong câu—có tương quan với các nhãn cụ thể. Quá trình này khác với dữ liệu xác thực , được sử dụng để điều chỉnh các siêu tham số trong quá trình huấn luyện, và dữ liệu kiểm thử , được dành riêng cho việc đánh giá cuối cùng hiệu suất của mô hình.

Dữ liệu huấn luyện chất lượng cao phải đại diện cho các tình huống thực tế mà mô hình sẽ gặp phải. Nếu tập dữ liệu chứa thông tin sai lệch hoặc thiếu tính đa dạng, mô hình có thể bị quá khớp (overfitting) , nghĩa là nó ghi nhớ các ví dụ huấn luyện nhưng lại hoạt động kém hiệu quả với các dữ liệu đầu vào mới. Ngược lại, hiện tượng thiếu khớp (underfitting) xảy ra khi dữ liệu quá đơn giản hoặc không đủ để mô hình nắm bắt được các mẫu cơ bản.

Các Ứng dụng Thực tế

Dữ liệu huấn luyện thúc đẩy sự đổi mới trong hầu hết mọi ngành công nghiệp bằng cách cho phép các hệ thống học hỏi từ các ví dụ trong quá khứ.

  • Trí tuệ nhân tạo trong chăm sóc sức khỏe : Trong chẩn đoán y tế, dữ liệu huấn luyện có thể bao gồm hàng nghìn hình ảnh X-quang được dán nhãn là "khỏe mạnh" hoặc chứa các bệnh lý cụ thể như viêm phổi. Bằng cách xử lý các ví dụ được dán nhãn này, các mô hình như Ultralytics YOLO26 có thể học cách hỗ trợ các bác sĩ X-quang bằng cách làm nổi bật các bất thường tiềm ẩn với độ chính xác cao, giúp rút ngắn đáng kể thời gian chẩn đoán.
  • Xe tự hành : Xe tự lái dựa trên các tập dữ liệu khổng lồ chứa hàng triệu dặm dữ liệu ghi lại hành trình lái xe. Dữ liệu huấn luyện này bao gồm các khung hình được chú thích hiển thị người đi bộ, biển báo giao thông, các phương tiện khác và vạch kẻ làn đường. Được lấy từ các thư viện toàn diện như Waymo Open Dataset hoặc nuScenes , thông tin này giúp hệ thống nhận thức của xe học cách điều hướng an toàn trong môi trường phức tạp.

Thu thập và quản lý dữ liệu

Việc thu thập dữ liệu huấn luyện mạnh mẽ thường là phần khó khăn nhất trong một dự án máy học. Dữ liệu có thể được lấy từ các kho lưu trữ công cộng như Google Dataset Search hoặc các bộ sưu tập chuyên biệt như COCO để phát hiện đối tượng. Tuy nhiên, dữ liệu thô thường yêu cầu làm sạch và chú thích dữ liệu cẩn thận để đảm bảo độ chính xác.

Các công cụ như Nền tảng Ultralytics đã đơn giản hóa quy trình làm việc này, cung cấp một môi trường tích hợp để tải lên, gắn nhãn và quản lý tập dữ liệu. Quản lý hiệu quả cũng bao gồm việc tăng cường dữ liệu , một kỹ thuật được sử dụng để tăng kích thước tập dữ liệu huấn luyện một cách nhân tạo bằng cách áp dụng các phép biến đổi—chẳng hạn như lật, xoay hoặc điều chỉnh màu sắc—cho các hình ảnh hiện có. Điều này giúp các mô hình trở nên mạnh mẽ hơn trước các biến thể trong dữ liệu đầu vào.

Ví dụ thực tế với YOLO26

Sau đây Python Ví dụ này minh họa cách bắt đầu quá trình đào tạo bằng cách sử dụng... ultralytics thư viện. Ở đây, một thư viện được đào tạo trước. YOLO26 mô hình được tinh chỉnh trên COCO8 tập dữ liệu, một tập dữ liệu nhỏ được thiết kế để xác minh các quy trình huấn luyện.

from ultralytics import YOLO

# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Tầm quan trọng của chất lượng dữ liệu

Câu ngạn ngữ "đầu vào rác, đầu ra rác" là nền tảng của học máy. Ngay cả những kiến ​​trúc phức tạp nhất, chẳng hạn như Transformer hay Mạng nơ-ron tích chập sâu (CNN) , cũng không thể bù đắp cho dữ liệu huấn luyện kém chất lượng. Các vấn đề như nhiễu nhãn, trong đó nhãn thực tế không chính xác, có thể làm giảm hiệu suất nghiêm trọng. Do đó, các quy trình đảm bảo chất lượng nghiêm ngặt, thường bao gồm xác minh có sự tham gia của con người , là rất cần thiết để duy trì tính toàn vẹn của tập dữ liệu.

Hơn nữa, việc tuân thủ các nguyên tắc đạo đức AI đòi hỏi dữ liệu huấn luyện phải được kiểm tra kỹ lưỡng để loại bỏ các thành kiến ​​về nhân khẩu học hoặc kinh tế xã hội. Đảm bảo tính công bằng trong AI bắt đầu từ một tập dữ liệu huấn luyện cân bằng và mang tính đại diện, giúp ngăn ngừa các kết quả phân biệt đối xử trong các ứng dụng được triển khai.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay