CutMix
Khám phá cách kỹ thuật tăng cường dữ liệu CutMix giúp ngăn chặn tình trạng overfitting. Tìm hiểu cách áp dụng kỹ thuật này để huấn luyện các model Ultralytics YOLO26 mạnh mẽ.
CutMix là một kỹ thuật data augmentation tiên tiến được sử dụng để huấn luyện các model computer vision mạnh mẽ bằng cách cắt một vùng hình chữ nhật từ một hình ảnh và dán nó lên một hình ảnh mục tiêu. Không giống như các kỹ thuật tăng cường dữ liệu đơn giản hơn giúp điều chỉnh độ sáng hoặc xoay ảnh, CutMix thay đổi thành phần cơ bản của một mẫu huấn luyện. Khi các pixel được hoán đổi, các ground-truth labels tương ứng cũng được trộn theo tỷ lệ diện tích của vùng cắt. Điều này giúp các artificial neural networks học cách nhận diện đối tượng từ các góc nhìn một phần, buộc model phải dựa vào nhiều đặc trưng thay vì chỉ tập trung vào những phần phân biệt rõ nhất của một đối tượng. Được giới thiệu lần đầu trong một 2019 academic paper, nó đã trở thành một thao tác tiêu chuẩn trong các framework deep learning để ngăn chặn overfitting và cải thiện khả năng tổng quát hóa trên các datasets lớn.
Link to this sectionCách thức hoạt động của kỹ thuật#
Trong quá trình huấn luyện model, thuật toán chọn ngẫu nhiên một tọa độ trung tâm và kích thước khung để trích xuất một vùng từ hình ảnh thứ hai. Vùng này sau đó được phủ trực tiếp lên hình ảnh chính trong batch đang hoạt động. Nếu hình ảnh chính chứa một con chó và hình ảnh thứ hai chứa một con mèo, hình ảnh cuối cùng sẽ có một mảng mèo thay thế cho một phần của con chó. Các nhãn phân loại được cập nhật bằng linear interpolation dựa trên diện tích vùng cắt chính xác—ví dụ: tạo ra nhãn 0.7 chó và 0.3 mèo. Trong các tác vụ object detection, các bounding box giữ lại ít nhất một tỷ lệ phần trăm nhất định (thường là 10%) diện tích ban đầu của chúng trong vùng được dán sẽ được bảo toàn. Kỹ thuật này được hỗ trợ nguyên bản dưới dạng siêu tham số huấn luyện cutmix trong Ultralytics YOLO, cho phép người dùng dễ dàng xác định xác suất của phép biến đổi này.
Link to this sectionPhân biệt giữa MixUp và Cutout#
CutMix có liên quan chặt chẽ với hai kỹ thuật data augmentation nổi bật khác, nhưng nó giải quyết được những hạn chế cụ thể của chúng:
- MixUp Augmentation: MixUp pha trộn hai hình ảnh trên toàn cục bằng cách tính trung bình trọng số các giá trị pixel của chúng. Mặc dù hiệu quả, nó thường tạo ra các hình ảnh bóng ma bán trong suốt, thiếu tự nhiên, có thể gây nhầm lẫn cho model bằng cách phá vỡ spatial correlation cục bộ. Ngược lại, CutMix bảo toàn cường độ pixel gốc trong các vùng được cắt, điều mà các nhà nghiên cứu đã tối ưu hóa thêm trong các phương pháp như Attentive CutMix.
- Cutout Augmentation: Cutout loại bỏ thông tin bằng cách che một vùng hình chữ nhật ngẫu nhiên bằng các pixel đen hoặc giá trị trung bình của tập dữ liệu. Mặc dù nó khuyến khích model nhìn vào toàn bộ đối tượng, nhưng nó làm lãng phí các tensors huấn luyện có giá trị. CutMix thay thế không gian bị thiếu đó bằng các mảng image classification nhiều thông tin từ các hình ảnh khác, làm tăng hiệu quả học tập tổng thể.
Link to this sectionCác ứng dụng trong thực tế#
Bằng cách huấn luyện các model để nhận diện các đối tượng bị che khuất nghiêm trọng, CutMix tăng cường đáng kể hiệu suất machine learning trên nhiều ngành công nghiệp đa dạng.
- Automotive AI and Autonomous Driving: Trong xe tự lái, nó dạy hệ thống nhận diện người đi bộ hoặc phương tiện ngay cả khi chúng bị che khuất một phần bởi các biển báo giao thông, giúp tăng cường an toàn trong môi trường đông đúc.
- Medical Diagnostics and Organ Segmentation: Trong chăm sóc sức khỏe, phương pháp này được sử dụng rộng rãi cho organ and tumor segmentation, cho phép các model nhận diện các ranh giới mô phức tạp ngay cả khi các cấu trúc giải phẫu chồng chéo lên nhau.
- Remote Sensing for Satellite Imagery: Chiến lược này bảo toàn các lớp dày đặc, chồng chéo như các tòa nhà và thảm thực vật từ góc nhìn trên không. Các biến thể nâng cao đang được tích cực nghiên cứu để cải thiện long-tailed recognition trên các dữ liệu mất cân bằng nghiêm trọng.
Link to this sectionTriển khai trong thực tế#
Việc tích hợp kỹ thuật tăng cường dữ liệu này vào pipeline AI rất đơn giản. Hầu hết các thư viện cấp cao đều hỗ trợ nó nguyên bản, chẳng hạn như PyTorch Transforms và Keras Preprocessing Layers.
Khi huấn luyện một model như YOLO26, việc cấu hình tăng cường dữ liệu này chỉ yêu cầu điều chỉnh một tham số duy nhất. Hệ thống sẽ tự động xử lý cả việc cắt ghép hình ảnh và logic cắt bounding box phức tạp.
from ultralytics import YOLO
# Initialize the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with CutMix enabled at a 50% probability
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, cutmix=0.5)Đối với các đội ngũ quản lý quy trình làm việc thị giác quy mô lớn, Ultralytics Platform đơn giản hóa việc này bằng cách cho phép người dùng điều chỉnh các data augmentation best practices này trực tiếp từ giao diện đám mây, hợp lý hóa lộ trình từ khâu gán nhãn đến model deployment.






