Data-Centric AI
Khám phá Data-Centric AI để tăng hiệu suất model bằng cách ưu tiên chất lượng dữ liệu. Tìm hiểu cách quản lý các tập dữ liệu cho Ultralytics YOLO26 bằng Ultralytics Platform.
Data-Centric AI là một triết lý và phương pháp tiếp cận trong machine learning tập trung vào việc cải thiện chất lượng của tập dữ liệu dùng để huấn luyện model, thay vì chủ yếu tập trung vào việc tinh chỉnh kiến trúc model hoặc các siêu tham số. Trong quá trình phát triển model-centric truyền thống, các kỹ sư thường giữ nguyên tập dữ liệu trong khi liên tục thay đổi thuật toán để đạt được hiệu suất tốt hơn. Data-centric AI đảo ngược mô hình này, cho thấy rằng đối với nhiều ứng dụng hiện đại, kiến trúc model đã đủ tiên tiến và cách hiệu quả nhất để cải thiện hiệu suất là kỹ thuật hóa dữ liệu một cách hệ thống. Quá trình này bao gồm làm sạch, gán nhãn, tăng cường (augmenting) và quản lý tập dữ liệu để đảm bảo chúng nhất quán, đa dạng và đại diện cho các vấn đề thực tế.
Link to this sectionTriết lý cốt lõi: Chất lượng dữ liệu quan trọng hơn số lượng#
Sự chuyển dịch sang các phương pháp luận data-centric công nhận rằng "rác vào thì rác ra" (garbage in, garbage out) là một chân lý cơ bản trong machine learning. Việc thêm nhiều dữ liệu không phải lúc nào cũng là giải pháp nếu dữ liệu đó bị nhiễu hoặc sai lệch. Thay vào đó, cách tiếp cận này nhấn mạnh tầm quan trọng của các tập dữ liệu thị giác máy tính chất lượng cao. Bằng cách ưu tiên chất lượng dữ liệu và tính nhất quán, các nhà phát triển thường có thể đạt được độ chính xác cao hơn với các tập dữ liệu nhỏ, được quản lý tốt thay vì những tập dữ liệu khổng lồ nhưng lộn xộn.
Triết lý này gắn liền với active learning, nơi model giúp xác định các điểm dữ liệu nào có giá trị nhất để gán nhãn tiếp theo. Các công cụ như Ultralytics Platform hỗ trợ điều này bằng cách hợp lý hóa việc gán nhãn dữ liệu và quản lý, cho phép các nhóm cộng tác để cải thiện chất lượng tập dữ liệu. Điều này trái ngược với các quy trình supervised learning thuần túy, nơi tập dữ liệu thường được coi là một thực thể tĩnh.
Link to this sectionCác kỹ thuật chính trong Data-Centric AI#
Việc thực hiện chiến lược data-centric bao gồm một số bước thực tế vượt xa việc thu thập dữ liệu đơn thuần.
- Tính nhất quán của nhãn: Đảm bảo rằng tất cả người gán nhãn thực hiện công việc theo cùng một cách là rất quan trọng. Ví dụ, trong object detection, việc xác định nghiêm ngặt liệu có bao gồm gương chiếu hậu của ô tô trong BBox hay không có thể ảnh hưởng đáng kể đến hiệu suất của model.
- Tăng cường dữ liệu (Data Augmentation): Áp dụng các phép biến đổi một cách hệ thống lên dữ liệu hiện có để bao quát các trường hợp biên (edge cases). Bạn có thể đọc hướng dẫn toàn diện về data augmentation của chúng tôi để hiểu cách các kỹ thuật như xoay và mosaic augmentation giúp các model tổng quát hóa tốt hơn.
- Phân tích lỗi: Xác định các class hoặc kịch bản cụ thể mà model gặp lỗi và thu thập dữ liệu mục tiêu để giải quyết những lỗ hổng đó. Điều này thường bao gồm việc kiểm tra confusion matrices để chỉ ra các điểm yếu.
- Làm sạch dữ liệu: Loại bỏ các hình ảnh trùng lặp, sửa các ví dụ bị gán nhãn sai và lọc bỏ dữ liệu chất lượng thấp có thể gây nhiễu cho neural network.
Link to this sectionCác ứng dụng trong thực tế#
Các phương pháp tiếp cận data-centric đang thay đổi các ngành công nghiệp nơi mà độ tin cậy là yếu tố không thể thương lượng.
-
Chẩn đoán hình ảnh y tế: Trong các lĩnh vực như phát hiện khối u trong chẩn đoán hình ảnh y tế, việc thu thập hàng triệu hình ảnh là không thể. Thay vào đó, các nhà nghiên cứu tập trung vào việc quản lý các tập dữ liệu có độ chính xác cao, được chuyên gia đánh giá. Cách tiếp cận data-centric đảm bảo rằng từng pixel trong mặt nạ phân đoạn (segmentation mask) đều chính xác, vì các nhãn mơ hồ có thể dẫn đến những sai sót nguy hiểm đến tính mạng.
-
Kiểm soát chất lượng trong sản xuất: Khi triển khai các hệ thống kiểm tra trực quan, các khiếm khuyết như vết xước hoặc vết lõm thường rất hiếm so với các bộ phận hoàn hảo. Chiến lược data-centric liên quan đến việc tổng hợp hoặc thu thập dữ liệu lỗi cụ thể để cân bằng tập dữ liệu, đảm bảo model không chỉ dự đoán "đạt" cho mọi sản phẩm.
Link to this sectionData-Centric AI so với Model-Centric AI#
Điều quan trọng là phải phân biệt Data-Centric AI với Model-Centric AI. Trong quy trình model-centric, tập dữ liệu được cố định và mục tiêu là cải thiện các chỉ số bằng cách thay đổi kiến trúc model (ví dụ: chuyển từ YOLO11 sang một ResNet tùy chỉnh) hoặc tinh chỉnh các tham số như learning rate. Trong quy trình data-centric, kiến trúc model được cố định (ví dụ: tiêu chuẩn hóa trên YOLO26) và mục tiêu là cải thiện các chỉ số bằng cách làm sạch nhãn, thêm các ví dụ đa dạng hoặc xử lý outliers.
Đoạn code sau đây minh họa một quy trình kiểm tra data-centric đơn giản: kiểm tra các hình ảnh bị hỏng trong tập dữ liệu trước khi huấn luyện. Điều này đảm bảo training pipeline của bạn không bị lỗi do dữ liệu xấu.
from ultralytics.data.utils import check_cls_dataset
# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
# Checks the dataset defined in a YAML or path structure
check_cls_dataset("mnist", split="train")
print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
print(f"Data issue found: {e}")Link to this sectionCác công cụ dành cho sự phát triển Data-Centric#
Để thực hành Data-Centric AI hiệu quả, các nhà phát triển dựa vào các công cụ mạnh mẽ. Ultralytics Platform đóng vai trò là trung tâm quản lý vòng đời dữ liệu của bạn, cung cấp các tính năng tự động gán nhãn giúp tăng tốc quá trình gán nhãn trong khi vẫn duy trì tính nhất quán. Ngoài ra, việc sử dụng explorer tools cho phép người dùng truy vấn tập dữ liệu của họ theo ngữ nghĩa (ví dụ: "tìm tất cả hình ảnh ô tô đỏ vào ban đêm") để hiểu về phân phối và độ chệch.
Bằng cách tập trung vào dữ liệu, các kỹ sư có thể xây dựng các hệ thống mạnh mẽ, công bằng và thực tế hơn để triển khai trong các môi trường năng động như xe tự lái hoặc bán lẻ thông minh. Sự chuyển dịch này thừa nhận rằng đối với nhiều vấn đề, code đã là một vấn đề đã được giải quyết, nhưng dữ liệu vẫn là biên giới của sự đổi mới.






