Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Học không cần dữ liệu huấn luyện (Zero-Shot Learning)

Khám phá Zero-Shot Learning: một phương pháp AI tiên tiến cho phép các mô hình phân loại dữ liệu chưa từng thấy, cách mạng hóa việc dò tìm đối tượng, NLP, v.v.

Học Zero-Shot (ZSL) là một khả năng hấp dẫn trong học máy (ML), trong đó một mô hình có thể nhận dạng và phân loại các đối tượng từ các danh mục mà nó chưa từng thấy trong giai đoạn dữ liệu huấn luyện. Không giống như học có giám sát truyền thống, vốn yêu cầu các ví dụ rõ ràng cho mọi lớp có thể có, ZSL cho phép một mô hình khái quát hóa kiến thức của nó cho các lớp mới, chưa từng thấy. Điều này đạt được bằng cách liên kết các lớp đã quan sát và chưa quan sát thông qua các mô tả ngữ nghĩa cấp cao, chẳng hạn như thuộc tính hoặc nhúng văn bản. Điều này cho phép một mô hình AI linh hoạt và có khả năng mở rộng hơn, đặc biệt là trong các tình huống thực tế, nơi việc thu thập dữ liệu được gắn nhãn đầy đủ là không thực tế.

Nó hoạt động như thế nào?

Ý tưởng cốt lõi của ZSL là tạo ra một không gian embedding chung, nơi cả các đặc trưng thị giác từ hình ảnh và thông tin ngữ nghĩa từ văn bản có thể được biểu diễn. Trong quá trình huấn luyện, mô hình học cách ánh xạ hình ảnh của các lớp đã thấy (seen classes) với các vector ngữ nghĩa tương ứng (thuộc tính hoặc word embeddings). Ví dụ: mô hình học các đặc trưng thị giác của một "con ngựa" và liên kết chúng với một mô tả ngữ nghĩa như "có bốn chân", "là một loài động vật có vú" và "có thể cưỡi được".

Khi được trình bày một hình ảnh về một lớp chưa từng thấy, như một "con ngựa vằn", mô hình sẽ trích xuất các đặc điểm trực quan của nó. Đồng thời, nó sử dụng mô tả ngữ nghĩa của một "con ngựa vằn"—ví dụ: "giống ngựa", "có sọc"—để định vị nó trong không gian nhúng. Bằng cách tìm mô tả ngữ nghĩa gần nhất với các đặc điểm trực quan được trích xuất, mô hình có thể phân loại chính xác hình ảnh là "con ngựa vằn", ngay cả khi không có một hình ảnh huấn luyện nào về nó. Quá trình này thường dựa vào các mô hình đa phương thức được đào tạo trước mạnh mẽ như CLIP của OpenAI, vốn vượt trội trong việc kết nối thị giác và ngôn ngữ.

So sánh Học Zero-Shot với các mô hình khác

Điều quan trọng là phải phân biệt ZSL với các kỹ thuật học (learning techniques) liên quan:

  • Học với ít mẫu (Few-Shot Learning - FSL): Trong FSL, mô hình được huấn luyện với một số lượng rất nhỏ các ví dụ được gắn nhãn (ví dụ: 1 đến 5) cho mỗi lớp mới. Điều này khác với ZSL, hoạt động với không có ví dụ nào về lớp mục tiêu.
  • Học một lần (One-Shot Learning - OSL): Một loại con của FSL, trong đó mô hình nhận được chính xác một ví dụ về một lớp mới. Nó bị ràng buộc về dữ liệu nhiều hơn so với FSL tổng quát, nhưng vẫn yêu cầu ít nhất một mẫu, không giống như ZSL.
  • Học chuyển giao: ZSL là một hình thức học chuyển giao, nhưng nó là duy nhất. Trong khi học chuyển giao tiêu chuẩn thường liên quan đến việc tinh chỉnh một mô hình được huấn luyện trước trên một bộ dữ liệu được gắn nhãn mới (nhỏ hơn), ZSL chuyển giao kiến thức cho các lớp mới chỉ bằng cách sử dụng thông tin ngữ nghĩa phụ trợ, bỏ qua nhu cầu về bất kỳ ví dụ được gắn nhãn nào của các lớp đó.

Các Ứng dụng Thực tế

ZSL có nhiều ứng dụng thực tế, làm cho các hệ thống thị giác máy tính trở nên năng động và dễ thích ứng hơn.

  1. Phát hiện đối tượng với từ vựng mở: Các mô hình như YOLO-World tận dụng ZSL để phát hiện bất kỳ đối tượng nào được mô tả bằng văn bản. Người dùng có thể cung cấp các câu lệnh dạng văn bản như "người đàn ông mặc áo xanh" hoặc "ống nước bị rò rỉ", và mô hình có thể định vị các đối tượng này trong hình ảnh hoặc luồng video mà không cần được huấn luyện rõ ràng trên các danh mục cụ thể đó. Đây là một bước tiến quan trọng hướng tới việc tạo ra các hệ thống thị giác đa năng thực sự.
  2. Nhận dạng loài tự động: Trong AI cho bảo tồn động vật hoang dã, ZSL có thể xác định các loài quý hiếm hoặc mới được phát hiện. Một mô hình được huấn luyện trên các động vật phổ biến có thể sử dụng các thuộc tính mô tả (ví dụ: "có cổ dài", "có đốm", "là động vật ăn cỏ") từ cơ sở kiến thức như Wikipedia để xác định một con hươu cao cổ, ngay cả khi không có hình ảnh hươu cao cổ nào trong tập huấn luyện ban đầu của nó.

Những thách thức và định hướng tương lai

Mặc dù có tiềm năng, ZSL phải đối mặt với những thách thức như vấn đề hubness (trong đó một số điểm trong không gian ngữ nghĩa trở thành hàng xóm gần nhất của quá nhiều điểm) và domain shift (trong đó mối quan hệ giữa các đặc trưng và thuộc tính khác nhau giữa các lớp đã thấy và chưa thấy). Để giải quyết những vấn đề này, các nhà nghiên cứu đang phát triển các kỹ thuật mạnh mẽ hơn như Generalized Zero-Shot Learning (GZSL), trong đó mô hình phải nhận ra cả các lớp đã chưa thấy trong quá trình suy luận. Sự phát triển của mô hình nền tảng (foundation models) và các nền tảng như Ultralytics HUB sẽ đơn giản hóa hơn nữa việc tích hợp và triển khai ZSL, làm cho các hệ thống AI ít phụ thuộc hơn vào việc gán nhãn dữ liệu mở rộng và phù hợp hơn với lý luận giống như con người.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard