Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Data-Centric AI

Khám phá Data-Centric AI để tăng hiệu suất model bằng cách ưu tiên chất lượng dữ liệu. Tìm hiểu cách quản lý các tập dữ liệu cho Ultralytics YOLO26 bằng Ultralytics Platform.

Data-Centric AI là một triết lý và phương pháp tiếp cận trong machine learning tập trung vào việc cải thiện chất lượng của tập dữ liệu dùng để huấn luyện model, thay vì chủ yếu tập trung vào việc tinh chỉnh kiến trúc model hoặc các siêu tham số. Trong quá trình phát triển model-centric truyền thống, các kỹ sư thường giữ nguyên tập dữ liệu trong khi liên tục thay đổi thuật toán để đạt được hiệu suất tốt hơn. Data-centric AI đảo ngược mô hình này, cho thấy rằng đối với nhiều ứng dụng hiện đại, kiến trúc model đã đủ tiên tiến và cách hiệu quả nhất để cải thiện hiệu suất là kỹ thuật hóa dữ liệu một cách hệ thống. Quá trình này bao gồm làm sạch, gán nhãn, tăng cường (augmenting) và quản lý tập dữ liệu để đảm bảo chúng nhất quán, đa dạng và đại diện cho các vấn đề thực tế.

Link to this sectionTriết lý cốt lõi: Chất lượng dữ liệu quan trọng hơn số lượng#

Sự chuyển dịch sang các phương pháp luận data-centric công nhận rằng "rác vào thì rác ra" (garbage in, garbage out) là một chân lý cơ bản trong machine learning. Việc thêm nhiều dữ liệu không phải lúc nào cũng là giải pháp nếu dữ liệu đó bị nhiễu hoặc sai lệch. Thay vào đó, cách tiếp cận này nhấn mạnh tầm quan trọng của các tập dữ liệu thị giác máy tính chất lượng cao. Bằng cách ưu tiên chất lượng dữ liệu và tính nhất quán, các nhà phát triển thường có thể đạt được độ chính xác cao hơn với các tập dữ liệu nhỏ, được quản lý tốt thay vì những tập dữ liệu khổng lồ nhưng lộn xộn.

Triết lý này gắn liền với active learning, nơi model giúp xác định các điểm dữ liệu nào có giá trị nhất để gán nhãn tiếp theo. Các công cụ như Ultralytics Platform hỗ trợ điều này bằng cách hợp lý hóa việc gán nhãn dữ liệu và quản lý, cho phép các nhóm cộng tác để cải thiện chất lượng tập dữ liệu. Điều này trái ngược với các quy trình supervised learning thuần túy, nơi tập dữ liệu thường được coi là một thực thể tĩnh.

Link to this sectionCác kỹ thuật chính trong Data-Centric AI#

Việc thực hiện chiến lược data-centric bao gồm một số bước thực tế vượt xa việc thu thập dữ liệu đơn thuần.

  • Tính nhất quán của nhãn: Đảm bảo rằng tất cả người gán nhãn thực hiện công việc theo cùng một cách là rất quan trọng. Ví dụ, trong object detection, việc xác định nghiêm ngặt liệu có bao gồm gương chiếu hậu của ô tô trong BBox hay không có thể ảnh hưởng đáng kể đến hiệu suất của model.
  • Tăng cường dữ liệu (Data Augmentation): Áp dụng các phép biến đổi một cách hệ thống lên dữ liệu hiện có để bao quát các trường hợp biên (edge cases). Bạn có thể đọc hướng dẫn toàn diện về data augmentation của chúng tôi để hiểu cách các kỹ thuật như xoay và mosaic augmentation giúp các model tổng quát hóa tốt hơn.
  • Phân tích lỗi: Xác định các class hoặc kịch bản cụ thể mà model gặp lỗi và thu thập dữ liệu mục tiêu để giải quyết những lỗ hổng đó. Điều này thường bao gồm việc kiểm tra confusion matrices để chỉ ra các điểm yếu.
  • Làm sạch dữ liệu: Loại bỏ các hình ảnh trùng lặp, sửa các ví dụ bị gán nhãn sai và lọc bỏ dữ liệu chất lượng thấp có thể gây nhiễu cho neural network.

Link to this sectionCác ứng dụng trong thực tế#

Các phương pháp tiếp cận data-centric đang thay đổi các ngành công nghiệp nơi mà độ tin cậy là yếu tố không thể thương lượng.

  1. Chẩn đoán hình ảnh y tế: Trong các lĩnh vực như phát hiện khối u trong chẩn đoán hình ảnh y tế, việc thu thập hàng triệu hình ảnh là không thể. Thay vào đó, các nhà nghiên cứu tập trung vào việc quản lý các tập dữ liệu có độ chính xác cao, được chuyên gia đánh giá. Cách tiếp cận data-centric đảm bảo rằng từng pixel trong mặt nạ phân đoạn (segmentation mask) đều chính xác, vì các nhãn mơ hồ có thể dẫn đến những sai sót nguy hiểm đến tính mạng.

  2. Kiểm soát chất lượng trong sản xuất: Khi triển khai các hệ thống kiểm tra trực quan, các khiếm khuyết như vết xước hoặc vết lõm thường rất hiếm so với các bộ phận hoàn hảo. Chiến lược data-centric liên quan đến việc tổng hợp hoặc thu thập dữ liệu lỗi cụ thể để cân bằng tập dữ liệu, đảm bảo model không chỉ dự đoán "đạt" cho mọi sản phẩm.

Link to this sectionData-Centric AI so với Model-Centric AI#

Điều quan trọng là phải phân biệt Data-Centric AI với Model-Centric AI. Trong quy trình model-centric, tập dữ liệu được cố định và mục tiêu là cải thiện các chỉ số bằng cách thay đổi kiến trúc model (ví dụ: chuyển từ YOLO11 sang một ResNet tùy chỉnh) hoặc tinh chỉnh các tham số như learning rate. Trong quy trình data-centric, kiến trúc model được cố định (ví dụ: tiêu chuẩn hóa trên YOLO26) và mục tiêu là cải thiện các chỉ số bằng cách làm sạch nhãn, thêm các ví dụ đa dạng hoặc xử lý outliers.

Đoạn code sau đây minh họa một quy trình kiểm tra data-centric đơn giản: kiểm tra các hình ảnh bị hỏng trong tập dữ liệu trước khi huấn luyện. Điều này đảm bảo training pipeline của bạn không bị lỗi do dữ liệu xấu.

from ultralytics.data.utils import check_cls_dataset

# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
    # Checks the dataset defined in a YAML or path structure
    check_cls_dataset("mnist", split="train")
    print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
    print(f"Data issue found: {e}")

Link to this sectionCác công cụ dành cho sự phát triển Data-Centric#

Để thực hành Data-Centric AI hiệu quả, các nhà phát triển dựa vào các công cụ mạnh mẽ. Ultralytics Platform đóng vai trò là trung tâm quản lý vòng đời dữ liệu của bạn, cung cấp các tính năng tự động gán nhãn giúp tăng tốc quá trình gán nhãn trong khi vẫn duy trì tính nhất quán. Ngoài ra, việc sử dụng explorer tools cho phép người dùng truy vấn tập dữ liệu của họ theo ngữ nghĩa (ví dụ: "tìm tất cả hình ảnh ô tô đỏ vào ban đêm") để hiểu về phân phối và độ chệch.

Bằng cách tập trung vào dữ liệu, các kỹ sư có thể xây dựng các hệ thống mạnh mẽ, công bằng và thực tế hơn để triển khai trong các môi trường năng động như xe tự lái hoặc bán lẻ thông minh. Sự chuyển dịch này thừa nhận rằng đối với nhiều vấn đề, code đã là một vấn đề đã được giải quyết, nhưng dữ liệu vẫn là biên giới của sự đổi mới.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning