Khám phá Học không cần dữ liệu huấn luyện (Zero-Shot Learning - ZSL) detect Và classify các đối tượng không có dữ liệu huấn luyện. Tìm hiểu cách Ultralytics YOLO -World cho phép phát hiện từ vựng mở theo thời gian thực.
Học không cần dữ liệu huấn luyện (Zero-Shot Learning - ZSL) là một mô hình học máy cho phép các mô hình trí tuệ nhân tạo nhận dạng, classify , hoặc detect Các đối tượng mà chúng chưa từng gặp trong giai đoạn huấn luyện. Trong học có giám sát truyền thống, một mô hình yêu cầu hàng nghìn ví dụ được gắn nhãn cho mỗi danh mục cụ thể mà nó cần xác định. ZSL loại bỏ sự phụ thuộc nghiêm ngặt này bằng cách tận dụng thông tin bổ trợ — thường là mô tả văn bản, thuộc tính ngữ nghĩa hoặc nhúng — để thu hẹp khoảng cách giữa các lớp đã thấy và chưa thấy. Khả năng này cho phép các hệ thống trí tuệ nhân tạo (AI) trở nên linh hoạt hơn đáng kể, có khả năng mở rộng và xử lý các môi trường năng động, nơi việc thu thập dữ liệu đầy đủ cho mọi đối tượng có thể là không khả thi.
Cơ chế cốt lõi của ZSL liên quan đến việc chuyển giao kiến thức từ các khái niệm quen thuộc sang các khái niệm không quen thuộc bằng cách sử dụng không gian ngữ nghĩa chung. Thay vì học cách nhận biết "ngựa vằn" chỉ bằng cách ghi nhớ các mẫu pixel của các sọc đen trắng, mô hình học được mối quan hệ giữa các đặc điểm hình ảnh và các thuộc tính ngữ nghĩa (ví dụ: "hình dạng giống ngựa", "mẫu sọc", "bốn chân") được suy ra từ xử lý ngôn ngữ tự nhiên (NLP) .
Quá trình này thường dựa vào các mô hình đa phương thức giúp đồng bộ hóa biểu diễn hình ảnh và văn bản. Ví dụ, các nghiên cứu nền tảng như CLIP của OpenAI đã chứng minh cách các mô hình có thể học các khái niệm trực quan từ sự giám sát ngôn ngữ tự nhiên. Khi một mô hình ZSL gặp một đối tượng chưa từng thấy, nó sẽ trích xuất các đặc điểm trực quan và so sánh chúng với một từ điển các vectơ ngữ nghĩa. Nếu các đặc điểm trực quan phù hợp với mô tả ngữ nghĩa của lớp mới, mô hình có thể nhận dạng chính xác. classify Về cơ bản, nó thực hiện dự đoán "không cần huấn luyện". Cách tiếp cận này là nền tảng cho các mô hình cơ bản hiện đại có khả năng khái quát hóa trên nhiều nhiệm vụ khác nhau.
Học không cần dữ liệu huấn luyện (Zero-Shot Learning) đang thúc đẩy sự đổi mới trong nhiều ngành công nghiệp bằng cách cho phép các hệ thống khái quát hóa vượt ra ngoài dữ liệu huấn luyện ban đầu.
Mô hình Ultralytics YOLO -World là một ví dụ điển hình cho việc học không cần huấn luyện lại (Zero-Shot Learning). Nó cho phép người dùng định nghĩa các lớp tùy chỉnh một cách linh hoạt trong thời gian chạy mà không cần huấn luyện lại mô hình. Điều này đạt được bằng cách kết nối một hệ thống phát hiện mạnh mẽ với một bộ mã hóa văn bản hiểu ngôn ngữ tự nhiên.
Sau đây Python Ví dụ này minh họa cách sử dụng. YOLO -Thế giới tới detect các đối tượng không phải là một phần rõ ràng của tập dữ liệu huấn luyện tiêu chuẩn sử dụng ultralytics bưu kiện.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Để hiểu đầy đủ về ZSL, cần phân biệt nó với các chiến lược học tập tương tự được sử dụng trong thị giác máy tính (CV) :
Mặc dù ZSL có tiềm năng to lớn, nó vẫn phải đối mặt với những thách thức như vấn đề chuyển đổi miền , trong đó các thuộc tính ngữ nghĩa được học trong quá trình huấn luyện không hoàn toàn khớp với hình ảnh trực quan của các lớp chưa được nhìn thấy. Ngoài ra, các mô hình ZSL có thể bị thiên lệch, trong đó độ chính xác dự đoán cao hơn đáng kể đối với các lớp đã thấy so với các lớp chưa thấy.
Các nghiên cứu từ các tổ chức như Phòng thí nghiệm AI của Đại học Stanford và Hiệp hội Máy tính IEEE tiếp tục giải quyết những hạn chế này. Khi các công cụ thị giác máy tính trở nên mạnh mẽ hơn, ZSL dự kiến sẽ trở thành một tính năng tiêu chuẩn, giảm sự phụ thuộc vào các nỗ lực gắn nhãn dữ liệu khổng lồ. Đối với các nhóm muốn quản lý tập dữ liệu một cách hiệu quả trước khi triển khai các mô hình tiên tiến, Nền tảng Ultralytics cung cấp các công cụ toàn diện để chú thích và quản lý tập dữ liệu.