Thuật ngữ

Học tập Zero-Shot

Khám phá Zero-Shot Learning: phương pháp AI tiên tiến cho phép các mô hình phân loại dữ liệu chưa thấy, cách mạng hóa phát hiện đối tượng, NLP, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Zero-Shot Learning (ZSL) là một lĩnh vực hấp dẫn trong Machine Learning (ML) nơi một mô hình được đào tạo để nhận dạng các đối tượng hoặc khái niệm mà nó chưa từng nhìn thấy rõ ràng trong quá trình đào tạo. Không giống như các phương pháp học có giám sát truyền thống đòi hỏi nhiều ví dụ được gắn nhãn cho mọi danh mục có thể, ZSL cho phép các mô hình đưa ra dự đoán về các lớp chưa thấy bằng cách tận dụng thông tin phụ trợ mô tả các lớp mới này. Khả năng này rất quan trọng để xây dựng các hệ thống Trí tuệ nhân tạo (AI) có khả năng thích ứng và mở rộng hơn, đặc biệt là trong các lĩnh vực mà việc thu thập dữ liệu được gắn nhãn cho mọi danh mục có thể hình dung được là không thực tế hoặc không thể.

Học tập Zero-Shot hoạt động như thế nào

Ý tưởng cốt lõi đằng sau ZSL là thu hẹp khoảng cách giữa các lớp nhìn thấy và không nhìn thấy bằng cách sử dụng không gian ngữ nghĩa chung. Không gian này thường dựa vào các mô tả, thuộc tính hoặc nhúng cấp cao có nguồn gốc từ văn bản hoặc cơ sở kiến thức. Trong quá trình đào tạo, mô hình học cách ánh xạ giữa dữ liệu đầu vào (như hình ảnh hoặc văn bản) và không gian ngữ nghĩa này, chỉ sử dụng các ví dụ từ các lớp 'nhìn thấy'. Ví dụ, một mô hình có thể học cách liên kết hình ảnh ngựa và hổ (lớp nhìn thấy) với các thuộc tính tương ứng của chúng (ví dụ: "có móng guốc", "có sọc", "là động vật có vú").

Khi được trình bày với một trường hợp của một lớp chưa từng thấy (ví dụ: ngựa vằn), mô hình sẽ trích xuất các đặc điểm của lớp đó và ánh xạ chúng vào không gian ngữ nghĩa đã học. Sau đó, mô hình sẽ so sánh ánh xạ này với các mô tả ngữ nghĩa của các lớp chưa từng thấy (ví dụ: các thuộc tính "có sọc", "có móng guốc", "là động vật có vú" mô tả ngựa vằn). Lớp có mô tả ngữ nghĩa gần nhất trong không gian này sẽ được chọn làm dự đoán. Quá trình này thường liên quan đến các kỹ thuật từ học sâu (DL) , sử dụng các kiến trúc như Mạng nơ-ron tích chập (CNN) để trích xuất đặc điểm và ánh xạ các hàm để liên hệ các đặc điểm trực quan với các thuộc tính ngữ nghĩa, đôi khi tận dụng các khái niệm từ Vision Transformers (ViT) hoặc các mô hình như CLIP .

Sự khác biệt chính từ các khái niệm tương tự

Điều quan trọng là phải phân biệt ZSL với các mô hình học tập liên quan:

  • Học ít lần (FSL) : FSL hướng đến việc học các khái niệm mới từ một số lượng rất nhỏ các ví dụ được gắn nhãn (ví dụ: 1 đến 5) cho mỗi lớp, trong khi ZSL yêu cầu không có ví dụ được gắn nhãn nào cho các lớp mục tiêu. Đọc thêm về cách hiểu Học ít lần, Học không lần và Học chuyển giao .
  • Học một lần (OSL) : Một trường hợp cụ thể của FSL trong đó chỉ cung cấp một ví dụ có nhãn cho mỗi lớp mới.
  • Transfer Learning : Một khái niệm rộng hơn, trong đó kiến thức thu được từ một nhiệm vụ được áp dụng cho một nhiệm vụ khác nhưng có liên quan. ZSL là một dạng transfer learning, nhưng tập trung cụ thể vào việc chuyển giao kiến thức (thường thông qua các thuộc tính ngữ nghĩa) để nhận dạng các lớp hoàn toàn chưa từng thấy. Các mô hình như Ultralytics YOLOv8 thường sử dụng transfer learning từ các tập dữ liệu lớn như COCO để đào tạo tùy chỉnh .
  • Học tự giám sát (SSL) : Các mô hình SSL học các biểu diễn từ dữ liệu không có nhãn bằng cách tạo các tác vụ tiền đề (ví dụ: dự đoán các phần được che dấu của đầu vào). Mặc dù hữu ích cho việc đào tạo trước, SSL không xử lý các lớp chưa thấy mà không có các cơ chế bổ sung như những cơ chế được sử dụng trong ZSL.

Ứng dụng trong thế giới thực

ZSL có tiềm năng đáng kể trong nhiều lĩnh vực:

  1. Thị giác máy tính (CV) - Nhận dạng đối tượng chi tiết: Nhận dạng các loài động vật, thực vật hoặc mô hình sản phẩm cụ thể hiếm trong hình ảnh khi dữ liệu đào tạo còn khan hiếm. Ví dụ, một hệ thống được đào tạo trên các loài chim phổ biến có thể nhận dạng một loài hiếm dựa trên mô tả bằng văn bản về bộ lông, hình dạng mỏ và môi trường sống của chúng, ngay cả khi không có ví dụ trực quan trước đó. Điều này mở rộng khả năng vượt ra ngoài khả năng phát hiện đối tượng tiêu chuẩn hoặc phân loại hình ảnh chỉ được đào tạo trên các lớp đã thấy. Các mô hình như YOLO -World xây dựng trên các ý tưởng tương tự để phát hiện từ vựng mở.
  2. Xử lý ngôn ngữ tự nhiên (NLP) - Nhận dạng chủ đề và Nhận dạng ý định: Phân loại tài liệu, email hoặc truy vấn của người dùng thành các chủ đề hoặc ý định mới, mới nổi không có trong tập dữ liệu đào tạo ban đầu. Ví dụ, một chatbot hỗ trợ khách hàng có thể phân loại truy vấn về tính năng sản phẩm mới ra mắt bằng cách sử dụng mô tả tính năng đó mà không cần các ví dụ đào tạo rõ ràng về các truy vấn đó. Điều này tận dụng sức mạnh của các Mô hình ngôn ngữ lớn (LLM) như GPT-4 .

Thách thức và hướng đi trong tương lai

Mặc dù có triển vọng, ZSL vẫn phải đối mặt với những thách thức như vấn đề hubness (nơi một số điểm trong không gian ngữ nghĩa trở thành hàng xóm gần nhất với nhiều điểm) và sự dịch chuyển miền (nơi mối quan hệ giữa các tính năng và thuộc tính khác nhau giữa các lớp nhìn thấy và không nhìn thấy). Nghiên cứu tiếp tục khám phá các nhúng ngữ nghĩa mạnh mẽ hơn, các hàm ánh xạ tốt hơn và các kỹ thuật như Generalized Zero-Shot Learning (GZSL), nhằm mục đích nhận dạng cả các lớp nhìn thấy và không nhìn thấy trong quá trình suy luận. Sự phát triển của các nền tảng như Ultralytics HUB có thể tạo điều kiện thuận lợi cho việc tích hợp và triển khai các khả năng của ZSL vào các ứng dụng AI thị giác thực tế. Những tiến bộ hơn nữa có thể lấy cảm hứng từ các mô hình đa phương thức vốn liên kết thị giác và ngôn ngữ.

Đọc tất cả