Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học không cần dữ liệu huấn luyện (Zero-Shot Learning)

Khám phá Học không cần dữ liệu huấn luyện (Zero-Shot Learning - ZSL) detect Và classify các đối tượng không có dữ liệu huấn luyện. Tìm hiểu cách Ultralytics YOLO -World cho phép phát hiện từ vựng mở theo thời gian thực.

Học không cần dữ liệu huấn luyện (Zero-Shot Learning - ZSL) là một mô hình học máy cho phép các mô hình trí tuệ nhân tạo nhận dạng, classify , hoặc detect Các đối tượng mà chúng chưa từng gặp trong giai đoạn huấn luyện. Trong học có giám sát truyền thống, một mô hình yêu cầu hàng nghìn ví dụ được gắn nhãn cho mỗi danh mục cụ thể mà nó cần xác định. ZSL loại bỏ sự phụ thuộc nghiêm ngặt này bằng cách tận dụng thông tin bổ trợ — thường là mô tả văn bản, thuộc tính ngữ nghĩa hoặc nhúng — để thu hẹp khoảng cách giữa các lớp đã thấy và chưa thấy. Khả năng này cho phép các hệ thống trí tuệ nhân tạo (AI) trở nên linh hoạt hơn đáng kể, có khả năng mở rộng và xử lý các môi trường năng động, nơi việc thu thập dữ liệu đầy đủ cho mọi đối tượng có thể là không khả thi.

Cách thức hoạt động của Zero-Shot Learning

Cơ chế cốt lõi của ZSL liên quan đến việc chuyển giao kiến ​​thức từ các khái niệm quen thuộc sang các khái niệm không quen thuộc bằng cách sử dụng không gian ngữ nghĩa chung. Thay vì học cách nhận biết "ngựa vằn" chỉ bằng cách ghi nhớ các mẫu pixel của các sọc đen trắng, mô hình học được mối quan hệ giữa các đặc điểm hình ảnh và các thuộc tính ngữ nghĩa (ví dụ: "hình dạng giống ngựa", "mẫu sọc", "bốn chân") được suy ra từ xử lý ngôn ngữ tự nhiên (NLP) .

Quá trình này thường dựa vào các mô hình đa phương thức giúp đồng bộ hóa biểu diễn hình ảnh và văn bản. Ví dụ, các nghiên cứu nền tảng như CLIP của OpenAI đã chứng minh cách các mô hình có thể học các khái niệm trực quan từ sự giám sát ngôn ngữ tự nhiên. Khi một mô hình ZSL gặp một đối tượng chưa từng thấy, nó sẽ trích xuất các đặc điểm trực quan và so sánh chúng với một từ điển các vectơ ngữ nghĩa. Nếu các đặc điểm trực quan phù hợp với mô tả ngữ nghĩa của lớp mới, mô hình có thể nhận dạng chính xác. classify Về cơ bản, nó thực hiện dự đoán "không cần huấn luyện". Cách tiếp cận này là nền tảng cho các mô hình cơ bản hiện đại có khả năng khái quát hóa trên nhiều nhiệm vụ khác nhau.

Các Ứng dụng Thực tế

Học không cần dữ liệu huấn luyện (Zero-Shot Learning) đang thúc đẩy sự đổi mới trong nhiều ngành công nghiệp bằng cách cho phép các hệ thống khái quát hóa vượt ra ngoài dữ liệu huấn luyện ban đầu.

  1. Phát hiện đối tượng từ vựng mở: Các kiến ​​trúc hiện đại như YOLO -World sử dụng ZSL để detect Các đối tượng được nhận dạng dựa trên các lời nhắc văn bản do người dùng định nghĩa. Điều này cho phép phát hiện đối tượng trong các trường hợp không thể xác định trước một danh sách các lớp cố định, chẳng hạn như tìm kiếm các mục cụ thể trong kho lưu trữ video khổng lồ. Các nhà nghiên cứu tại Google Research tiếp tục đẩy mạnh giới hạn của các khả năng từ vựng mở này.
  2. Chẩn đoán y khoa: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe , việc thu thập dữ liệu được dán nhãn cho các bệnh hiếm gặp thường khó khăn và tốn kém. Mô hình ZSL có thể được huấn luyện trên các bệnh lý phổ biến và mô tả các triệu chứng hiếm gặp từ tài liệu y khoa được tìm thấy trong các cơ sở dữ liệu như PubMed , cho phép hệ thống phát hiện các bất thường hiếm gặp tiềm ẩn trong hình ảnh y khoa mà không cần một tập dữ liệu khổng lồ về các trường hợp dương tính.
  3. Bảo tồn động vật hoang dã: Đối với trí tuệ nhân tạo trong nông nghiệp và sinh thái, việc xác định các loài có nguy cơ tuyệt chủng hiếm khi được chụp ảnh là rất quan trọng. ZSL cho phép các nhà bảo tồn detect những động vật này sử dụng các mô tả dựa trên thuộc tính được định nghĩa trong các cơ sở dữ liệu sinh học như Bách khoa toàn thư về sự sống .

Phát hiện Zero-Shot với Ultralytics

Mô hình Ultralytics YOLO -World là một ví dụ điển hình cho việc học không cần huấn luyện lại (Zero-Shot Learning). Nó cho phép người dùng định nghĩa các lớp tùy chỉnh một cách linh hoạt trong thời gian chạy mà không cần huấn luyện lại mô hình. Điều này đạt được bằng cách kết nối một hệ thống phát hiện mạnh mẽ với một bộ mã hóa văn bản hiểu ngôn ngữ tự nhiên.

Sau đây Python Ví dụ này minh họa cách sử dụng. YOLO -Thế giới tới detect các đối tượng không phải là một phần rõ ràng của tập dữ liệu huấn luyện tiêu chuẩn sử dụng ultralytics bưu kiện.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Phân biệt với các khái niệm liên quan

Để hiểu đầy đủ về ZSL, cần phân biệt nó với các chiến lược học tập tương tự được sử dụng trong thị giác máy tính (CV) :

  • Học với ít dữ liệu (Few-Shot Learning - FSL) : Trong khi ZSL không yêu cầu bất kỳ ví dụ nào về lớp mục tiêu, FSL cung cấp cho mô hình một tập dữ liệu hỗ trợ rất nhỏ (thường từ 1 đến 5 ví dụ) để thích nghi. ZSL thường được coi là khó khăn hơn vì nó hoàn toàn dựa vào suy luận ngữ nghĩa chứ không phải các ví dụ trực quan.
  • Học một lần : Một tập hợp con của FSL, trong đó mô hình học từ chính xác một ví dụ được gắn nhãn. ZSL khác biệt cơ bản ở chỗ nó hoạt động mà không cần bất kỳ hình ảnh nào của danh mục mới.
  • Học chuyển giao : Thuật ngữ rộng này đề cập đến việc chuyển giao kiến thức từ tác vụ này sang tác vụ khác. ZSL là một loại học chuyển giao cụ thể sử dụng các thuộc tính ngữ nghĩa để chuyển giao kiến thức sang các lớp chưa biết mà không cần phải tinh chỉnh dữ liệu mới theo cách truyền thống.

Thách thức và triển vọng tương lai

Mặc dù ZSL có tiềm năng to lớn, nó vẫn phải đối mặt với những thách thức như vấn đề chuyển đổi miền , trong đó các thuộc tính ngữ nghĩa được học trong quá trình huấn luyện không hoàn toàn khớp với hình ảnh trực quan của các lớp chưa được nhìn thấy. Ngoài ra, các mô hình ZSL có thể bị thiên lệch, trong đó độ chính xác dự đoán cao hơn đáng kể đối với các lớp đã thấy so với các lớp chưa thấy.

Các nghiên cứu từ các tổ chức như Phòng thí nghiệm AI của Đại học StanfordHiệp hội Máy tính IEEE tiếp tục giải quyết những hạn chế này. Khi các công cụ thị giác máy tính trở nên mạnh mẽ hơn, ZSL dự kiến ​​sẽ trở thành một tính năng tiêu chuẩn, giảm sự phụ thuộc vào các nỗ lực gắn nhãn dữ liệu khổng lồ. Đối với các nhóm muốn quản lý tập dữ liệu một cách hiệu quả trước khi triển khai các mô hình tiên tiến, Nền tảng Ultralytics cung cấp các công cụ toàn diện để chú thích và quản lý tập dữ liệu.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay