Training Data
Tìm hiểu cách dữ liệu đào tạo (training data) hỗ trợ các mô hình AI. Khám phá việc tìm nguồn, chú thích và cách đào tạo Ultralytics YOLO26 để có độ chính xác vượt trội trong các tác vụ thị giác máy tính.
Dữ liệu huấn luyện là tập dữ liệu ban đầu được sử dụng để dạy cho model machine learning cách nhận diện các mô hình, đưa ra dự đoán hoặc thực hiện các tác vụ cụ thể. Nó đóng vai trò như cuốn giáo trình nền tảng cho các hệ thống trí tuệ nhân tạo, cung cấp ground truth mà thuật toán sẽ phân tích để điều chỉnh các tham số bên trong. Trong bối cảnh học có giám sát, dữ liệu huấn luyện bao gồm các mẫu đầu vào được ghép cặp với các nhãn đầu ra tương ứng, cho phép model học được mối quan hệ giữa hai thành phần này. Chất lượng, số lượng và tính đa dạng của dữ liệu này ảnh hưởng trực tiếp đến độ chính xác cuối cùng của model và khả năng khái quát hóa đối với các thông tin mới, chưa từng gặp.
Link to this sectionVai trò của dữ liệu huấn luyện trong AI#
Chức năng chính của dữ liệu huấn luyện là giảm thiểu sai số giữa các dự đoán của model và kết quả thực tế. Trong quy trình huấn luyện model, thuật toán xử lý dữ liệu theo từng vòng lặp, xác định các đặc trưng—chẳng hạn như các cạnh trong hình ảnh hoặc từ khóa trong câu—có liên quan đến các nhãn cụ thể. Quá trình này khác biệt với dữ liệu kiểm chứng, được sử dụng để tinh chỉnh các siêu tham số trong khi huấn luyện, và dữ liệu kiểm thử, được dành riêng cho việc đánh giá cuối cùng hiệu suất của model.
Dữ liệu huấn luyện chất lượng cao phải mang tính đại diện cho các kịch bản thực tế mà model sẽ gặp phải. Nếu tập dữ liệu chứa định kiến hoặc thiếu tính đa dạng, model có thể bị quá khớp, khi đó nó ghi nhớ các ví dụ huấn luyện nhưng không thể hoạt động tốt trên các dữ liệu đầu vào mới. Ngược lại, thiếu khớp xảy ra khi dữ liệu quá đơn giản hoặc không đủ để model nắm bắt được các mô hình cơ bản.
Link to this sectionCác ứng dụng trong thực tế#
Dữ liệu huấn luyện thúc đẩy các đổi mới trên hầu hết mọi ngành công nghiệp bằng cách cho phép các hệ thống học hỏi từ các ví dụ lịch sử.
- AI trong Chăm sóc sức khỏe: Trong chẩn đoán y tế, dữ liệu huấn luyện có thể bao gồm hàng nghìn hình ảnh X-quang được dán nhãn là "khỏe mạnh" hoặc chứa các bệnh lý cụ thể như viêm phổi. Bằng cách xử lý các ví dụ đã dán nhãn này, các model như Ultralytics YOLO26 có thể học cách hỗ trợ các bác sĩ chẩn đoán hình ảnh bằng cách làm nổi bật các điểm bất thường tiềm ẩn với độ chính xác cao, giúp tăng tốc đáng kể thời gian chẩn đoán.
- Xe tự lái: Xe tự lái dựa vào các tập dữ liệu khổng lồ chứa hàng triệu dặm dữ liệu ghi hình khi lái xe. Dữ liệu huấn luyện này bao gồm các khung hình đã được chú thích hiển thị người đi bộ, biển báo giao thông, các phương tiện khác và vạch kẻ làn đường. Được lấy từ các thư viện toàn diện như Waymo Open Dataset hoặc nuScenes, thông tin này dạy cho hệ thống nhận thức của xe cách điều hướng an toàn trong các môi trường phức tạp.
Link to this sectionTìm kiếm và quản lý dữ liệu#
Việc thu thập dữ liệu huấn luyện mạnh mẽ thường là phần thách thức nhất của một dự án machine learning. Dữ liệu có thể được lấy từ các kho lưu trữ công cộng như Google Dataset Search hoặc các bộ sưu tập chuyên biệt như COCO cho việc phát hiện đối tượng. Tuy nhiên, dữ liệu thô thường đòi hỏi phải được làm sạch dữ liệu và chú thích cẩn thận để đảm bảo tính chính xác.
Các công cụ như Ultralytics Platform đã tối ưu hóa quy trình này, cung cấp một môi trường tích hợp để tải lên, dán nhãn và quản lý các tập dữ liệu. Quản lý hiệu quả cũng bao gồm tăng cường dữ liệu, một kỹ thuật được sử dụng để tăng kích thước tập huấn luyện một cách nhân tạo bằng cách áp dụng các phép biến đổi—như lật, xoay hoặc điều chỉnh màu sắc—cho các hình ảnh hiện có. Điều này giúp các model trở nên mạnh mẽ hơn trước những thay đổi trong dữ liệu đầu vào.
Link to this sectionVí dụ thực tế với YOLO26#
Ví dụ Python sau đây minh họa cách bắt đầu huấn luyện bằng cách sử dụng thư viện ultralytics. Tại đây, một model YOLO26 đã được huấn luyện trước được tinh chỉnh trên tập dữ liệu COCO8, một tập dữ liệu nhỏ được thiết kế để xác minh các đường ống dẫn huấn luyện.
from ultralytics import YOLO
# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)Link to this sectionTầm quan trọng của chất lượng dữ liệu#
Câu nói "rác vào thì rác ra" (garbage in, garbage out) là nguyên tắc cơ bản trong machine learning. Ngay cả những kiến trúc tinh vi nhất, chẳng hạn như Transformers hoặc các Mạng thần kinh tích chập (CNN) chuyên sâu, cũng không thể bù đắp cho dữ liệu huấn luyện kém. Các vấn đề như nhiễu nhãn, trong đó các nhãn ground truth không chính xác, có thể làm giảm nghiêm trọng hiệu suất. Do đó, các quy trình đảm bảo chất lượng nghiêm ngặt, thường liên quan đến xác minh human-in-the-loop, là yếu tố cần thiết để duy trì tính toàn vẹn của tập dữ liệu.
Hơn nữa, việc tuân thủ các nguyên tắc về Đạo đức AI đòi hỏi dữ liệu huấn luyện phải được kiểm tra kỹ lưỡng về các định kiến nhân khẩu học hoặc kinh tế xã hội. Việc đảm bảo tính công bằng trong AI bắt đầu bằng một tập dữ liệu huấn luyện cân bằng và mang tính đại diện, điều này giúp ngăn chặn các kết quả phân biệt đối xử trong các ứng dụng đã được triển khai.






