Data Provenance

Tìm hiểu cách nguồn gốc dữ liệu (data provenance) đảm bảo tính minh bạch và khả năng tái lập của AI. Khám phá việc theo dõi dòng dữ liệu cho các tập dữ liệu computer vision với Ultralytics YOLO26.

Data provenance đề cập đến hồ sơ lịch sử toàn diện về nguồn gốc, metadata và các quá trình chuyển đổi của dữ liệu khi nó đi qua pipeline machine learning. Trong bối cảnh trí tuệ nhân tạo và computer vision, nó cung cấp một dòng dõi chi tiết về cách một computer vision dataset được thu thập, xử lý và sửa đổi trước khi được đưa vào một neural network. Việc hiểu rõ nguồn gốc dữ liệu là yếu tố thiết yếu để đảm bảo AI safety, cho phép khả năng reproducibility nghiêm ngặt và duy trì sự tuân thủ với các khung pháp lý mới nổi như European Union AI Act.

Link to this sectionTại sao việc theo dõi dòng dõi dữ liệu lại quan trọng#

Việc duy trì một hồ sơ rõ ràng về quá trình tiến hóa của dữ liệu giúp các đội ngũ kỹ thuật xây dựng các model mạnh mẽ và đáng tin cậy. Khi huấn luyện một kiến trúc nâng cao như Ultralytics YOLO26, việc biết chính xác những kỹ thuật tăng cường dữ liệu nào đã được áp dụng hoặc các bước tiền xử lý dữ liệu đã thay đổi hình ảnh gốc như thế nào là rất quan trọng để gỡ lỗi. Nếu độ chính xác của model giảm đột ngột, kỹ sư có thể truy ngược lại dòng dõi dữ liệu để xác định các tệp bị lỗi, thiếu chú thích hoặc phân đoạn dữ liệu huấn luyện không mang tính đại diện.

Khái niệm này liên quan chặt chẽ đến nhưng khác biệt với gán nhãn dữ liệu. Trong khi việc gán nhãn tập trung vào các thẻ hoặc BBox thực tế được áp dụng cho một hình ảnh, nguồn gốc dữ liệu theo dõi "ai, cái gì, khi nào và ở đâu" trong toàn bộ vòng đời của tập dữ liệu. Việc theo dõi toàn diện này giúp giảm thiểu thiên kiến tập dữ liệu mang tính hệ thống bằng cách phơi bày các nguồn cung cấp không cân đối.

Link to this sectionCác ứng dụng trong thực tế#

Việc theo dõi dữ liệu chặt chẽ được triển khai rộng rãi trên các ngành để duy trì sự minh bạch trong AI:

Phân tích hình ảnh y tế: Trong lĩnh vực chăm sóc sức khỏe, các tổ chức phải truy xuất nguồn gốc mọi ảnh chụp X-quang hoặc MRI về phòng khám ban đầu để tuân thủ các luật bảo mật dữ liệu nghiêm ngặt như HIPAA. Nguồn gốc dữ liệu đảm bảo rằng các model phát hiện khối u bằng phát hiện đối tượng chỉ được huấn luyện trên các hồ sơ y tế có nguồn gốc đạo đức và đã được xác minh bởi bệnh nhân.
Xe tự hành: Các công ty xe tự lái liên tục cập nhật model của họ với các trường hợp biên, chẳng hạn như đường đầy tuyết hoặc khu vực xây dựng. Bằng cách sử dụng các khuôn khổ dòng dõi dữ liệu toàn diện, họ theo dõi chính xác phương tiện nào trong đội xe đã chụp ảnh và trong điều kiện thời tiết nào. Điều này cho phép tinh chỉnh có mục tiêu đồng thời tránh được hiện tượng quên thảm họa.

Link to this sectionTriển khai các workflow về nguồn gốc dữ liệu#

Các workflow hiện đại thường tận dụng các không gian làm việc tập trung như Ultralytics Platform để kích hoạt quản lý tập dữ liệu thông minh. Điều này đảm bảo kiểm soát phiên bản đúng đắn đối với các chú thích, giúp việc so sánh các lần lặp khác nhau của một tập dữ liệu trở nên dễ dàng. Các khuôn khổ hàng đầu như PyTorch và TensorFlow cũng khuyến khích các thực tiễn tải dữ liệu có cấu trúc để bảo tồn siêu dữ liệu có giá trị.

Khi huấn luyện một model, việc lưu cấu trúc tập dữ liệu đóng vai trò là một hình thức nguồn gốc nền tảng. Trong gói ultralytics, bạn có thể xác định các đường dẫn tập dữ liệu và các class của mình trong một tệp cấu hình YAML, tệp này được tự động lưu vào thư mục huấn luyện để bảo tồn lịch sử cấu hình của thử nghiệm.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model; the coco8.yaml dataset config is copied and logged for provenance
results = model.train(data="coco8.yaml", epochs=10, project="Run_History", name="experiment_1")

Bằng cách duy trì các thực tiễn theo dõi mạnh mẽ, các tổ chức có thể thúc đẩy đạo đức AI và đảm bảo các hệ thống học máy của họ minh bạch, đáng tin cậy và vững chắc ngay từ đầu.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Data Provenance

Link to this sectionTại sao việc theo dõi dòng dõi dữ liệu lại quan trọng#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionTriển khai các workflow về nguồn gốc dữ liệu#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!