Few-Shot Learning
Khám phá Few-Shot Learning (FSL) để huấn luyện AI với dữ liệu tối thiểu. Tìm hiểu cách Ultralytics YOLO26 tận dụng meta-learning để thích ứng nhanh chóng và đạt độ chính xác cao.
Few-Shot Learning (FSL) là một phân ngành chuyên biệt của machine learning (ML) được thiết kế để huấn luyện các model nhận diện và phân loại các khái niệm mới bằng cách sử dụng một số lượng rất ít các ví dụ đã được gán nhãn. Trong deep learning (DL) truyền thống, việc đạt được độ chính xác cao thường đòi hỏi các tập dữ liệu khổng lồ chứa hàng ngàn hình ảnh cho mỗi danh mục. Tuy nhiên, FSL mô phỏng khả năng nhận thức của con người để tổng quát hóa nhanh chóng từ kinh nghiệm hạn chế—giống như cách một đứa trẻ có thể nhận ra một con hươu cao cổ sau khi chỉ nhìn thấy một hoặc hai bức ảnh trong sách. Khả năng này rất cần thiết để triển khai artificial intelligence (AI) trong các kịch bản mà việc thu thập một lượng lớn training data trở nên quá đắt đỏ, tốn thời gian hoặc gần như không thể thực hiện được.
Link to this sectionCác cơ chế cốt lõi của Few-Shot Learning#
Mục tiêu chính của FSL là giảm bớt sự phụ thuộc vào việc thu thập dữ liệu trên quy mô lớn bằng cách tận dụng kiến thức trước đó. Thay vì học các mô hình từ đầu, model sử dụng một "support set" chứa một vài ví dụ đã được gán nhãn để hiểu các class mới. Điều này thường đạt được thông qua các kỹ thuật tiên tiến như meta-learning, còn được gọi là "học cách học". Trong mô hình này, model được huấn luyện trên nhiều tác vụ khác nhau để học được quy tắc khởi tạo hoặc cập nhật tối ưu, cho phép nó thích ứng với các tác vụ mới với những điều chỉnh tối thiểu.
Một cách tiếp cận phổ biến khác liên quan đến học tập dựa trên số liệu (metric-based learning), nơi model học cách ánh xạ dữ liệu đầu vào vào một không gian vector sử dụng embeddings. Trong không gian này, các mục tương tự được gom nhóm lại gần nhau trong khi các mục không tương tự bị đẩy xa nhau. Các thuật toán như Prototypical Networks tính toán một biểu diễn trung bình, hay nguyên mẫu (prototype), cho mỗi class và phân loại các mẫu truy vấn mới dựa trên khoảng cách của chúng tới các nguyên mẫu này. Điều này thường dựa vào khả năng feature extraction được phát triển trong quá trình pre-training trên các tập dữ liệu lớn và tổng quát hơn.
Link to this sectionCác ứng dụng trong thực tế#
Few-Shot Learning đang chuyển đổi các ngành công nghiệp nơi sự khan hiếm dữ liệu trước đây đã cản trở việc áp dụng các công nghệ AI.
Link to this sectionChẩn đoán và Hình ảnh Y tế#
Trong lĩnh vực medical image analysis, việc thu thập hàng ngàn bản quét đã gán nhãn cho các bệnh lý hiếm gặp thường không khả thi. FSL cho phép các nhà nghiên cứu huấn luyện các hệ thống computer vision (CV) để phát hiện các loại khối u hiếm hoặc các bất thường di truyền cụ thể chỉ bằng cách sử dụng một số ít các trường hợp nghiên cứu đã được chú thích. Khả năng này dân chủ hóa việc tiếp cận các công cụ chẩn đoán tiên tiến, một mục tiêu được theo đuổi bởi các tổ chức như Stanford Medicine, giúp xác định các tình trạng mà nếu không có nó sẽ cần đến chuyên môn của con người.
Link to this sectionKiểm soát chất lượng công nghiệp#
AI in manufacturing hiện đại phụ thuộc rất nhiều vào kiểm tra tự động. Tuy nhiên, các khiếm khuyết cụ thể có thể xảy ra rất hiếm, gây khó khăn cho việc xây dựng một tập dữ liệu lớn về các bộ phận "lỗi". FSL cho phép các hệ thống anomaly detection học được các đặc điểm của một loại khiếm khuyết mới chỉ từ vài hình ảnh. Điều này cho phép các nhà vận hành nhà máy cập nhật nhanh chóng các giao thức đảm bảo chất lượng mà không cần dừng sản xuất để thu thập dữ liệu, cải thiện đáng kể hiệu quả trong các môi trường sản xuất năng động.
Link to this sectionPhân biệt các khái niệm liên quan#
Việc phân biệt FSL với các mô hình học tập ít dữ liệu tương tự là rất hữu ích để hiểu rõ phân khúc cụ thể của nó:
- Transfer Learning: FSL thường được triển khai như một dạng cụ thể và cực đoan của transfer learning. Trong khi transfer learning tiêu chuẩn có thể fine-tune một model như YOLO26 trên hàng trăm hình ảnh, FSL nhắm vào các kịch bản có thể chỉ với 5 đến 10 hình ảnh mỗi class (được gọi là phân loại "N-way K-shot").
- One-Shot Learning: Đây là một tập con nghiêm ngặt của FSL, trong đó model phải học từ chính xác một ví dụ đã được gán nhãn. Nó thường được sử dụng trong facial recognition để xác minh danh tính dựa trên một bức ảnh duy nhất đã được lưu trữ.
- Zero-Shot Learning: Khác với FSL, vốn yêu cầu ít nhất một tập hỗ trợ hình ảnh nhỏ, Zero-Shot Learning yêu cầu không có ví dụ hình ảnh nào của class mục tiêu trong quá trình huấn luyện. Thay vào đó, nó dựa vào các mô tả ngữ nghĩa hoặc thuộc tính (như text prompt) để nhận diện các đối tượng chưa từng thấy.
Link to this sectionTriển khai thực tế với Ultralytics#
Trên thực tế, một trong những cách hiệu quả nhất để thực hiện Few-Shot Learning là tận dụng một model pre-trained cực kỳ mạnh mẽ. Các model hiện đại như YOLO26 mới đã học được các biểu diễn đặc trưng phong phú từ các tập dữ liệu khổng lồ như COCO hoặc ImageNet. Bằng cách fine-tuning các model này trên một tập dữ liệu tùy chỉnh nhỏ, chúng có thể thích ứng với các tác vụ mới với tốc độ và độ chính xác đáng kinh ngạc.
Ví dụ về Python sau đây minh họa cách huấn luyện một model trên một tập dữ liệu nhỏ sử dụng gói ultralytics, thực hiện hiệu quả quá trình thích ứng few-shot:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (incorporates learned features)
model = YOLO("yolo26n.pt")
# Fine-tune on a tiny dataset (e.g., coco8 has only 4 images per batch)
# This leverages the model's prior knowledge for the new task
results = model.train(data="coco8.yaml", epochs=20, imgsz=640)
# The model adapts to detect objects in the small dataset
print("Few-shot adaptation complete.")Link to this sectionNhững thách thức và Triển vọng tương lai#
Mặc dù mạnh mẽ, FSL phải đối mặt với những thách thức liên quan đến độ tin cậy. Nếu một vài ví dụ được cung cấp là các điểm ngoại lai (outliers) hoặc bị nhiễu, hiệu suất của model có thể suy giảm, một vấn đề được gọi là overfitting. Nghiên cứu về data augmentation và tạo synthetic data là rất quan trọng để giảm thiểu các rủi ro này. Khi các foundation models trở nên lớn hơn và có khả năng hơn, và các công cụ như Ultralytics Platform đơn giản hóa việc huấn luyện và quản lý model, khả năng tạo ra các giải pháp AI tùy chỉnh với dữ liệu tối thiểu sẽ ngày càng trở nên dễ tiếp cận hơn đối với các nhà phát triển trên toàn thế giới.






