Unsupervised Domain Adaptation (UDA)

Khám phá cách Unsupervised Domain Adaptation (UDA) lấp đầy các khoảng trống dữ liệu bằng cách sử dụng dữ liệu không dán nhãn. Tìm hiểu cách tối ưu hóa các mô hình Ultralytics YOLO26 cho việc triển khai trong thế giới thực.

Thích ứng miền không giám sát (UDA) là một phân ngành chuyên biệt của transfer learning được thiết kế để thu hẹp khoảng cách hiệu suất giữa hai phân phối dữ liệu riêng biệt nhưng có liên quan. Trong các kịch bản machine learning thực tế, một model thường được huấn luyện trên tập dữ liệu "nguồn" có chú thích dày đặc. Tuy nhiên, khi triển khai vào môi trường production, nó thường gặp phải một miền "đích" khác biệt về mặt thị giác—ví dụ như điều kiện ánh sáng thay đổi, cảm biến camera khác nhau hoặc các kiểu thời tiết thay đổi. Như đã được trình bày chi tiết trong tổng quan về thích ứng miền trên Wikipedia, các kỹ thuật UDA nhằm mục đích thích ứng một model đã được huấn luyện trước với miền đích mới này bằng cách chỉ sử dụng dữ liệu không nhãn, từ đó giảm thiểu hiệu quả tình trạng sụt giảm hiệu suất do data drift gây ra mà không phát sinh chi phí gán nhãn khổng lồ.

Link to this sectionPhân biệt UDA với các khái niệm liên quan#

Việc hiểu UDA đòi hỏi phải phân biệt nó với các mô hình huấn luyện computer vision tương tự. Trong khi các nguyên tắc transfer learning cơ bản được khám phá trong các hướng dẫn PyTorch áp dụng kiến thức từ tác vụ này sang tác vụ khác một cách rộng rãi, UDA tập trung giải quyết các kịch bản mà miền đích thiếu bất kỳ nhãn ground-truth nào. Ngược lại, học bán giám sát (semi-supervised learning) giả định rằng một phần nhỏ của tập dữ liệu đích đã được gán nhãn. Bằng cách dựa hoàn toàn vào dữ liệu đích không nhãn, UDA là yếu tố then chốt để mở rộng các model vào các môi trường mới nơi việc data annotation thủ công là không thể hoặc cực kỳ tốn kém.

Link to this sectionCác ứng dụng thực tế của thích ứng miền#

Khả năng tổng quát hóa trên các miền thị giác là rất quan trọng đối với các hệ thống artificial intelligence hiện đại. Hai ví dụ nổi bật bao gồm:

Sim-to-Real trong xe tự lái: Huấn luyện các model cho autonomous vehicles phụ thuộc rất nhiều vào synthetic data được tạo ra bởi các công cụ vật lý như CARLA autonomous driving simulator. Các thuật toán UDA căn chỉnh các phân phối feature extraction để một model được huấn luyện trên đường phố mô phỏng có thể điều hướng an toàn và chính xác trên các con đường thực tế.
Hình ảnh y tế liên tổ chức: Trong medical image analysis, một model MRI được huấn luyện tại một bệnh viện thường bị giảm chất lượng khi xử lý các bản quét từ phần cứng của cơ sở khác. Các nhà nghiên cứu thường công bố các phương pháp trên các tạp chí machine learning của IEEE nhằm chứng minh cách UDA chuẩn hóa các cấu hình hình ảnh riêng biệt này mà không làm ảnh hưởng đến quyền riêng tư của bệnh nhân khi yêu cầu chia sẻ hồ sơ chẩn đoán đã gán nhãn.

Link to this sectionCác chiến lược triển khai thực tiễn#

Nghiên cứu AI hiện đại, bao gồm các nghiên cứu từ các tổ chức như Google DeepMind về tổng quát hóa model mạnh mẽ và nghiên cứu của OpenAI về độ bền vững của mạng thần kinh, nhấn mạnh một số kỹ thuật cho UDA. Ví dụ, huấn luyện đối kháng (adversarial training) huấn luyện một mạng để trích xuất các đặc trưng không thể phân biệt được giữa miền nguồn và miền đích. Ngoài ra, các kỹ sư thường sử dụng gán nhãn giả (pseudo-labeling), trong đó một model object detection có độ tin cậy cao sẽ tạo ra các nhãn tạm thời trên tập dữ liệu đích để tạo điều kiện cho việc fine-tuning liên tục.

Khi quản lý các tập dữ liệu nguồn và đích khổng lồ, Ultralytics Platform cung cấp một môi trường đám mây liền mạch để quản lý, trực quan hóa và tự động gán nhãn cho các hình ảnh không nhãn. Đối với các lập trình viên xây dựng các pipeline suy luận được tối ưu hóa cho thiết bị biên (edge-optimized), Ultralytics YOLO26 là kiến trúc được khuyến nghị nhờ khả năng biểu diễn đặc trưng mạnh mẽ, độ chính xác cao và hiệu suất end-to-end nguyên bản.

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model previously trained on a labeled source domain
model = YOLO("yolo26n.pt")

# Perform inference on the unlabeled target domain to generate pseudo-labels
# The save_txt=True argument exports confident predictions as new labels for UDA
results = model.predict(source="path/to/target_domain", conf=0.85, save_txt=True)

# These high-confidence pseudo-labels can now be used to fine-tune the model

Bằng cách liên tục cập nhật các ấn phẩm thị giác máy tính mới nhất trên arXiv và sử dụng các framework hiệu quả, các đội ngũ AI có thể triển khai thành công UDA để giữ cho các model của họ luôn chính xác trước các điều kiện thực tế luôn thay đổi. Để được hướng dẫn thêm về việc tối ưu hóa các pipeline đầu vào nhằm ngăn chặn sự thay đổi miền (domain shift), hãy xem lại tài liệu về tăng cường dữ liệu của TensorFlow hoặc khám phá các kiến trúc nâng cao được xuất bản bởi Stanford AI Lab và các nhóm nghiên cứu tại MIT CSAIL.

Unsupervised Domain Adaptation (UDA)

Link to this sectionPhân biệt UDA với các khái niệm liên quan#

Link to this sectionCác ứng dụng thực tế của thích ứng miền#

Link to this sectionCác chiến lược triển khai thực tiễn#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!