Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học với Số Lượng Mẫu Ít (Few-Shot Learning)

Khám phá cách học ít mẫu (few-shot learning) cho phép AI thích ứng với dữ liệu tối thiểu, chuyển đổi các lĩnh vực như chẩn đoán y tế và bảo tồn động vật hoang dã.

Học tập ít lần (FSL) là một lĩnh vực chuyên biệt của học máy (ML) tập trung vào việc đào tạo các mô hình trí tuệ nhân tạo để phân loại, detect , hoặc hiểu các khái niệm mới chỉ bằng một số lượng rất nhỏ các ví dụ được gắn nhãn. Trong học sâu (DL) truyền thống, các mô hình thường yêu cầu hàng nghìn hình ảnh cho mỗi lớp để đạt được độ chính xác cao. Tuy nhiên, FSL mô phỏng khả năng khái quát hóa nhanh chóng của con người từ kinh nghiệm hạn chế—giống như một đứa trẻ có thể nhận ra một con hươu cao cổ chỉ sau khi nhìn thấy một hoặc hai bức ảnh. Khả năng này rất quan trọng đối với các ứng dụng mà việc thu thập lượng lớn dữ liệu huấn luyện tốn kém, mất thời gian hoặc gần như không thể.

Cơ chế cốt lõi của việc học ít lần

Mục tiêu chính của FSL là giảm sự phụ thuộc vào các tập dữ liệu khổng lồ bằng cách tận dụng kiến thức sẵn có. Thay vì học các mẫu mới từ đầu, mô hình sử dụng thông tin học được từ tập dữ liệu cơ sở để diễn giải một vài ví dụ có sẵn cho một tác vụ mới. Điều này thường đạt được thông qua các phương pháp tiếp cận riêng biệt:

  • Học siêu hình: Thường được mô tả là "học để học", học siêu hình huấn luyện các mô hình thích ứng nhanh với các tác vụ mới. Các thuật toán như Học siêu hình không phụ thuộc mô hình (MAML) tối ưu hóa các tham số nội bộ của mô hình để một vài bước gradient trên một tác vụ mới có thể mang lại hiệu suất tốt.
  • Học tập dựa trên phép đo: Phương pháp này ánh xạ dữ liệu đầu vào vào một không gian đặc trưng, trong đó các mục tương tự nằm gần nhau và các mục không tương tự nằm xa nhau. Các kỹ thuật như Mạng Nguyên mẫu tính toán biểu diễn trung bình (nguyên mẫu) cho mỗi lớp và classify các mẫu truy vấn mới dựa trên khoảng cách của chúng đến các nguyên mẫu này, hoạt động tương tự như bộ phân loại k-Nearest Neighbors (k-NN) tinh vi.
  • Tăng cường dữ liệu: Khi mẫu khan hiếm, các nhà nghiên cứu thường mở rộng tập dữ liệu một cách giả tạo. Các kỹ thuật tăng cường dữ liệu tiên tiến có thể tạo ra các biến thể tổng hợp từ số ít hình ảnh có sẵn, giúp ngăn ngừa mô hình quá khớp với các ví dụ hạn chế.

Triển khai Học tập ít lần với YOLO11

Trong các tình huống thị giác máy tính (CV) thực tế, FSL thường được triển khai thông qua học chuyển giao. Bằng cách sử dụng một mô hình mạnh mẽ như YOLO11 , vốn đã học được các biểu diễn đặc trưng phong phú từ các tập dữ liệu lớn như COCO , các nhà phát triển có thể tinh chỉnh mô hình trên một tập dữ liệu tùy chỉnh nhỏ. Các trọng số được đào tạo trước đóng vai trò là một bộ trích xuất đặc trưng mạnh mẽ, cho phép mô hình hội tụ về các lớp mới với rất ít mẫu.

Sau đây là Python mã chứng minh cách áp dụng khái niệm này bằng cách sử dụng ultralytics gói. Bằng cách tải một mô hình được đào tạo trước và đào tạo trong thời gian ngắn trên một tập dữ liệu nhỏ, về cơ bản bạn thực hiện việc điều chỉnh ít lần.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model to leverage learned feature representations
model = YOLO("yolo11n.pt")

# Fine-tune the model on a small dataset (e.g., 'coco8.yaml' has only 4 images per batch)
# The model adapts its existing knowledge to the new few-shot task
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# The model can now detect objects from the small dataset with high efficiency

Phân biệt Few-Shot với các khái niệm liên quan

Để hiểu vị trí của FSL trong bối cảnh AI, cần phân biệt nó với các mô hình học tập tương tự:

  • Học Zero-Shot (ZSL) : Trong khi FSL yêu cầu ít nhất một tập hợp ví dụ nhỏ ("tập hỗ trợ"), ZSL không yêu cầu bất kỳ ví dụ trực quan nào trong quá trình huấn luyện suy luận cho lớp mục tiêu cụ thể. Thay vào đó, ZSL dựa vào các mô tả ngữ nghĩa hoặc thuộc tính (ví dụ: nhúng văn bản) để nhận dạng các danh mục chưa được biết đến.
  • Học một lần : Đây là một trường hợp cực đoan của FSL, trong đó mô hình phải học một lớp mới chỉ từ một ví dụ được gắn nhãn. Đây là một chuẩn mực trong các hệ thống nhận dạng khuôn mặt , trong đó điện thoại sẽ mở khóa sau khi nhìn thấy khuôn mặt người dùng chỉ một lần.
  • Học chuyển giao : FSL là một ứng dụng cụ thể của học chuyển giao. Học chuyển giao tiêu chuẩn vẫn có thể sử dụng hàng trăm hình ảnh để tinh chỉnh , trong khi FSL nhắm mục tiêu rõ ràng đến các kịch bản có chế độ dữ liệu rất thấp (ví dụ: 5 đến 10 hình ảnh cho mỗi lớp).

Các Ứng dụng Thực tế

Học tập ít lần đang khai phá tiềm năng trong các ngành công nghiệp mà dữ liệu vốn khan hiếm hoặc hiếm khi có sự bất thường rõ rệt.

Chẩn đoán y khoa

Trong phân tích hình ảnh y tế , việc thu thập hàng ngàn ảnh quét được gắn nhãn cho các bệnh lý hiếm gặp thường là bất khả thi. FSL cho phép các mô hình AI xác định các loại khối u hiếm gặp hoặc các bệnh lý di truyền chỉ bằng cách sử dụng một số ít các nghiên cứu trường hợp có chú thích. Các tổ chức như Stanford Medicine đang tích cực khám phá các kỹ thuật này để phổ biến các công cụ chẩn đoán AI cho các bệnh lý chưa được nghiên cứu đầy đủ.

Kiểm soát chất lượng sản xuất

Trí tuệ nhân tạo (AI) hiện đại trong sản xuất dựa vào việc phát hiện lỗi để đảm bảo chất lượng. Tuy nhiên, lỗi cụ thể có thể chỉ xảy ra một lần trong một triệu đơn vị. Thay vì phải chờ hàng tháng trời để thu thập một tập dữ liệu "lỗi" lớn, các kỹ sư sử dụng FSL để huấn luyện hệ thống phát hiện đối tượng chỉ với một vài ví dụ về lỗi mới, cho phép triển khai ngay lập tức các giao thức đảm bảo chất lượng được cập nhật.

Robot và Thích ứng

Robot hoạt động trong môi trường năng động thường gặp phải những vật thể mà chúng chưa từng thấy trước đây. Sử dụng FSL, hệ thống robot có thể học cách nắm bắt hoặc thao tác một công cụ mới chỉ sau vài lần trình diễn. Khả năng này rất cần thiết cho tự động hóa linh hoạt trong kho bãi và hậu cần, trọng tâm của các công ty như Boston Dynamics .

Thách thức và triển vọng tương lai

Mặc dù có nhiều hứa hẹn, FSL vẫn phải đối mặt với những thách thức về độ tin cậy. Các mô hình có thể nhạy cảm với một vài ví dụ cụ thể được cung cấp; nếu bộ hỗ trợ không mang tính đại diện, hiệu suất sẽ giảm đáng kể. Nghiên cứu hiện tại tập trung vào việc cải thiện tính mạnh mẽ của các phép nhúng và phát triển các phương pháp ước lượng độ bất định tốt hơn. Các nền tảng như PyTorchTensorFlow tiếp tục phát triển, cung cấp cho các nhà nghiên cứu các công cụ để mở rộng ranh giới của việc học hiệu quả dữ liệu. Khi các mô hình như YOLO26 sắp ra mắt, chúng tôi kỳ vọng khả năng học từ dữ liệu đầu vào tối thiểu sẽ còn tốt hơn nữa.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay