Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học không cần dữ liệu huấn luyện (Zero-Shot Learning)

Khám phá Zero-Shot Learning: một phương pháp AI tiên tiến cho phép các mô hình classify dữ liệu chưa từng thấy, cách mạng hóa phát hiện đối tượng, NLP, v.v.

Zero-Shot Learning (ZSL) là một mô hình mạnh mẽ trong học máy (ML) cho phép các mô hình trí tuệ nhân tạo nhận dạng, classify , hoặc detect các đối tượng mà chúng chưa từng gặp trong giai đoạn dữ liệu huấn luyện . Trong học có giám sát truyền thống, một mô hình phải được huấn luyện trên hàng nghìn hình ảnh được gắn nhãn cho mỗi danh mục cụ thể mà nó cần xác định. ZSL loại bỏ ràng buộc này bằng cách tận dụng thông tin bổ trợ - thường là mô tả văn bản, thuộc tính hoặc nhúng ngữ nghĩa - để thu hẹp khoảng cách giữa các lớp hữu hình và vô hình. Khả năng này cho phép các hệ thống trí tuệ nhân tạo (AI) linh hoạt hơn đáng kể, có khả năng mở rộng và xử lý các môi trường động, nơi việc thu thập dữ liệu đầy đủ cho mọi đối tượng khả thi là không thực tế.

Cách thức hoạt động của Zero-Shot Learning

Cơ chế cốt lõi của ZSL liên quan đến việc chuyển đổi kiến thức từ các khái niệm quen thuộc sang các khái niệm xa lạ bằng cách sử dụng một không gian ngữ nghĩa chung. Thay vì học cách nhận dạng "mèo" chỉ bằng cách ghi nhớ các mẫu pixel, mô hình học mối quan hệ giữa các đặc điểm trực quan và các thuộc tính ngữ nghĩa (ví dụ: "có lông", "râu ria", "bốn chân") được rút ra từ xử lý ngôn ngữ tự nhiên (NLP) .

Quá trình này thường dựa trên các mô hình đa phương thức , giúp căn chỉnh các biểu diễn hình ảnh và văn bản. Ví dụ, các nghiên cứu nền tảng như CLIP của OpenAI chứng minh cách các mô hình có thể học các khái niệm trực quan từ sự giám sát ngôn ngữ tự nhiên. Khi một mô hình ZSL gặp một vật thể vô hình, chẳng hạn như một loài chim quý hiếm, nó sẽ trích xuất các đặc điểm trực quan và so sánh chúng với một từ điển các vectơ ngữ nghĩa. Nếu các đặc điểm trực quan khớp với mô tả ngữ nghĩa của lớp mới, mô hình có thể phân loại chính xác. classify nó thực sự thực hiện một dự đoán "không có kết quả".

Phân biệt với các khái niệm liên quan

Để hiểu đầy đủ về ZSL, cần phân biệt nó với các chiến lược học tập tương tự được sử dụng trong thị giác máy tính (CV) :

  • Học ít lần (FSL) : Mặc dù ZSL không yêu cầu ví dụ về lớp mục tiêu, FSL cung cấp cho mô hình một tập dữ liệu hỗ trợ rất nhỏ (thường từ 1 đến 5 ví dụ) để điều chỉnh. ZSL khó hơn vì nó hoàn toàn dựa vào suy luận ngữ nghĩa thay vì ví dụ trực quan.
  • Học một lần : Một tập hợp con của FSL, trong đó mô hình học từ chính xác một ví dụ được gắn nhãn. ZSL khác biệt cơ bản ở chỗ nó hoạt động mà không cần bất kỳ hình ảnh nào của danh mục mới.
  • Học chuyển giao : Thuật ngữ rộng này đề cập đến việc chuyển giao kiến thức từ tác vụ này sang tác vụ khác. ZSL là một loại học chuyển giao cụ thể sử dụng các thuộc tính ngữ nghĩa để chuyển giao kiến thức sang các lớp chưa biết mà không cần phải tinh chỉnh dữ liệu mới theo cách truyền thống.

Các Ứng dụng Thực tế

Zero-Shot Learning đang thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau bằng cách cho phép các hệ thống có khả năng khái quát hóa vượt ra ngoài quá trình đào tạo ban đầu.

  1. Phát hiện đối tượng từ vựng mở: Các kiến trúc hiện đại như YOLO -World sử dụng ZSL để detect Các đối tượng dựa trên lời nhắc văn bản do người dùng định nghĩa. Điều này cho phép phát hiện đối tượng trong các tình huống không thể xác định trước danh sách các lớp cố định, chẳng hạn như tìm kiếm các mục cụ thể trong kho lưu trữ video khổng lồ. Các nhà nghiên cứu tại Google Research và các tổ chức khác đang tích cực cải thiện các khả năng từ vựng mở này.
  2. Chẩn đoán Y khoa: Trong lĩnh vực AI chăm sóc sức khỏe , việc thu thập dữ liệu được gắn nhãn cho các bệnh hiếm gặp rất khó khăn và tốn kém. Các mô hình ZSL có thể được đào tạo dựa trên các tình trạng bệnh lý phổ biến và mô tả các triệu chứng hiếm gặp từ sách giáo khoa y khoa (ví dụ: bài viết trên PubMed ), cho phép hệ thống đánh dấu các bất thường hiếm gặp tiềm ẩn trên phim chụp X-quang hoặc MRI mà không cần một tập dữ liệu lớn các trường hợp dương tính.
  3. Bảo tồn Động vật Hoang dã: Đối với AI trong nông nghiệp và sinh thái, việc xác định các loài có nguy cơ tuyệt chủng nhưng hiếm khi được chụp ảnh là rất quan trọng. ZSL cho phép các nhà bảo tồn detect những loài động vật này sử dụng các mô tả dựa trên thuộc tính (ví dụ, kiểu lông cụ thể hoặc hình dạng sừng) được định nghĩa trong các cơ sở dữ liệu sinh học như Bách khoa toàn thư về sự sống .

Phát hiện Zero-Shot với Ultralytics

Mô hình YOLO -World Ultralytics minh họa cho phương pháp Zero-Shot Learning trong thực tế. Nó cho phép người dùng định nghĩa các lớp tùy chỉnh một cách linh hoạt trong thời gian chạy mà không cần đào tạo lại mô hình. Điều này đạt được bằng cách kết nối xương sống phát hiện YOLO11 với bộ mã hóa văn bản dựa trên CLIP.

Sau đây là Python ví dụ minh họa cách sử dụng YOLO -Thế giới đến detect các đối tượng không phải là một phần của tiêu chuẩn COCO tập dữ liệu, chẳng hạn như màu sắc cụ thể của quần áo, sử dụng ultralytics bưu kiện.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

Thách thức và triển vọng tương lai

Mặc dù ZSL có tiềm năng to lớn, nhưng nó cũng phải đối mặt với những thách thức như vấn đề dịch chuyển miền (domain shift ), trong đó các thuộc tính ngữ nghĩa học được trong quá trình huấn luyện không hoàn toàn khớp với hình ảnh trực quan của các lớp chưa được biết đến. Ngoài ra, các mô hình ZSL có thể bị sai lệch , trong đó độ chính xác dự đoán đối với các lớp đã được biết đến cao hơn đáng kể so với các lớp chưa được biết đến (Học Zero-Shot Tổng quát).

Nghiên cứu từ các tổ chức như Phòng thí nghiệm AI của Đại học StanfordHiệp hội Máy tính IEEE tiếp tục giải quyết những hạn chế này. Khi các mô hình nền tảng trở nên mạnh mẽ hơn, ZSL dự kiến sẽ trở thành một tính năng tiêu chuẩn trong các công cụ thị giác máy tính , giảm sự phụ thuộc vào các nỗ lực dán nhãn dữ liệu quy mô lớn và dân chủ hóa khả năng tiếp cận các khả năng AI tiên tiến.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay