Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Data Leakage

Khám phá rò rỉ dữ liệu (data leakage) trong học máy là gì và tìm hiểu cách ngăn chặn nó. Tìm hiểu các phương pháp tốt nhất để giữ cho pipeline Ultralytics YOLO của bạn an toàn.

Rò rỉ dữ liệu trong machine learning (ML) xảy ra khi thông tin từ bên ngoài training data bị sử dụng không phù hợp để tạo model. Lỗi thuật toán tiềm ẩn này tạo ra ảo tưởng sai lệch về hiệu suất vượt trội trong quá trình huấn luyện và model testing, nhưng dẫn đến thất bại nghiêm trọng về khả năng tổng quát hóa khi model đối mặt với dữ liệu thực tế, chưa từng thấy. Khác với các định nghĩa an ninh mạng truyền thống nơi rò rỉ dữ liệu đề cập đến unauthorized data exposure, định nghĩa về rò rỉ dữ liệu trong machine learning tập trung hoàn toàn vào vấn đề nhiễm bẩn dữ liệu huấn luyện và sự toàn vẹn của dự đoán bị tổn hại.

Link to this sectionCách thức xảy ra Rò rỉ dữ liệu#

Để hiểu rò rỉ dữ liệu trong machine learning là gì, việc xem xét hai cơ chế chính mà điểm lỗi này biểu hiện trong các pipeline hiện đại sẽ rất hữu ích:

  • Train-Test Contamination: Điều này xảy ra khi test data vô tình lọt vào tập dữ liệu huấn luyện. Một nguyên nhân phổ biến là thực hiện data preprocessing (như chuẩn hóa hoặc tính toán giá trị trung bình) trên toàn bộ tập dữ liệu trước khi chia nhỏ, thay vì áp dụng các biến đổi này một cách độc lập.
  • Target Leakage: Điều này xảy ra khi các feature dự đoán bao gồm thông tin không có sẵn về mặt logic tại thời điểm suy luận (inference). Ví dụ, bao gồm một feature là kết quả trực tiếp của biến mục tiêu sẽ mặc nhiên cung cấp cho model đáp án trước.

Link to this sectionCác ví dụ thực tế về Rò rỉ dữ liệu#

Hiểu cách phát hiện và ngăn chặn rò rỉ là rất quan trọng để xây dựng AI đáng tin cậy. Dưới đây là hai ví dụ cụ thể về cách khái niệm này gây gián đoạn cho các triển khai production:

  • AI in Healthcare: Nếu một cơ sở y tế huấn luyện thuật toán phát hiện bệnh phổi bằng ảnh X-quang của bệnh nhân, nhưng tất cả các ảnh scan dương tính đều chứa các điểm đánh dấu phẫu thuật do bác sĩ đặt sau khi chẩn đoán, thì target leakage sẽ xảy ra. Model chỉ đơn giản học cách nhận diện dấu vết phẫu thuật thay vì các dấu hiệu sinh học của bệnh.
  • Computer Vision Video Analysis: Trong các tác vụ hình ảnh như action recognition, việc chia ngẫu nhiên các khung hình video liền kề vào cả tập huấn luyện và tập validation sẽ gây ra nhiễm bẩn train-test nghiêm trọng. Vì các khung hình liên tiếp gần như giống hệt nhau, model sẽ ghi nhớ các phần nền chồng lấp thay vì học các hành động phức tạp của con người, vi phạm các thực tiễn đánh giá model của OpenAI tiêu chuẩn.

Link to this sectionPhòng ngừa và Bảo vệ trước Rò rỉ dữ liệu#

Việc bảo vệ chống rò rỉ dữ liệu dựa vào việc duy trì vệ sinh dữ liệu nghiêm ngặt và sử dụng các môi trường có cấu trúc trong suốt vòng đời kỹ thuật.

  • Rigorous Data Splitting: Triển khai các phương pháp chia dữ liệu theo trình tự thời gian hoặc theo nhóm nghiêm ngặt để đảm bảo các mẫu chồng lấp hoặc dữ liệu chuỗi thời gian không vượt qua các ranh giới, một phương pháp luận được nhấn mạnh rất nhiều trong tài liệu machine learning của AWS.
  • Cross-Validation Strategies: Sử dụng các kỹ thuật validation mạnh mẽ, nơi việc scaling dữ liệu và kỹ thuật feature được giới hạn nghiêm ngặt trong các fold huấn luyện tương ứng, theo khuyến nghị từ hướng dẫn validation của scikit-learn.
  • Ultralytics Platform Dataset Management: Việc sử dụng các công cụ thị giác máy tính dựa trên nền tảng đám mây đảm bảo rằng các ranh giới tập dữ liệu của bạn được phân chia an toàn. Ultralytics YOLO26 tuân thủ các cấu hình tập dữ liệu nghiêm ngặt, đảm bảo model không bao giờ vô tình truy cập vào hình ảnh validation trong giai đoạn học tập.
from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model using a strict dataset configuration (data.yaml)
# The YAML file enforces rigid, isolated paths for 'train' and 'val' directories,
# ensuring data leakage protection between the learning and evaluation phases.
results = model.train(data="dataset.yaml", epochs=50, imgsz=640)

Link to this sectionPhân biệt Rò rỉ dữ liệu với các khái niệm liên quan#

Vì thuật ngữ thường chồng chéo giữa khoa học dữ liệu và an ninh mạng, việc phân biệt rò rỉ dữ liệu với các khái niệm liên quan chặt chẽ là rất quan trọng.

  • Overfitting: Mặc dù cả hai vấn đề đều khiến model thất bại trong production, overfitting nghĩa là model đã ghi nhớ nhiễu tự nhiên trong một tập huấn luyện hợp lệ, biệt lập. Rò rỉ dữ liệu nghĩa là model được cấp quyền truy cập trái phép vào các đáp án kiểm tra.
  • Data Security: Trong thế giới IT, phòng chống rò rỉ dữ liệu bao gồm ngăn chặn phơi nhiễm dữ liệu trái phép bằng cách sử dụng tường lửa, mã hóa và kiểm soát truy cập nghiêm ngặt. Điều này thuộc về các khuôn khổ data privacy doanh nghiệp. Các công ty bảo mật tập trung rất nhiều vào khía cạnh này, bạn có thể đọc thêm thông qua Rapid7 threat intelligence hoặc tổng quan về phòng ngừa của SecurityScorecard. Ngoài ra, Wiz's data security academy vạch ra cách các cấu hình sai trên đám mây dẫn đến những phơi nhiễm này, điều này hoàn toàn khác biệt với sự nhiễm bẩn thuật toán được thảo luận trong machine learning.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning