Khám phá Zero-Shot Learning: một phương pháp AI tiên tiến cho phép các mô hình classify dữ liệu chưa từng thấy, cách mạng hóa phát hiện đối tượng, NLP, v.v.
Zero-Shot Learning (ZSL) là một mô hình mạnh mẽ trong học máy (ML) cho phép các mô hình trí tuệ nhân tạo nhận dạng, classify , hoặc detect các đối tượng mà chúng chưa từng gặp trong giai đoạn dữ liệu huấn luyện . Trong học có giám sát truyền thống, một mô hình phải được huấn luyện trên hàng nghìn hình ảnh được gắn nhãn cho mỗi danh mục cụ thể mà nó cần xác định. ZSL loại bỏ ràng buộc này bằng cách tận dụng thông tin bổ trợ - thường là mô tả văn bản, thuộc tính hoặc nhúng ngữ nghĩa - để thu hẹp khoảng cách giữa các lớp hữu hình và vô hình. Khả năng này cho phép các hệ thống trí tuệ nhân tạo (AI) linh hoạt hơn đáng kể, có khả năng mở rộng và xử lý các môi trường động, nơi việc thu thập dữ liệu đầy đủ cho mọi đối tượng khả thi là không thực tế.
Cơ chế cốt lõi của ZSL liên quan đến việc chuyển đổi kiến thức từ các khái niệm quen thuộc sang các khái niệm xa lạ bằng cách sử dụng một không gian ngữ nghĩa chung. Thay vì học cách nhận dạng "mèo" chỉ bằng cách ghi nhớ các mẫu pixel, mô hình học mối quan hệ giữa các đặc điểm trực quan và các thuộc tính ngữ nghĩa (ví dụ: "có lông", "râu ria", "bốn chân") được rút ra từ xử lý ngôn ngữ tự nhiên (NLP) .
Quá trình này thường dựa trên các mô hình đa phương thức , giúp căn chỉnh các biểu diễn hình ảnh và văn bản. Ví dụ, các nghiên cứu nền tảng như CLIP của OpenAI chứng minh cách các mô hình có thể học các khái niệm trực quan từ sự giám sát ngôn ngữ tự nhiên. Khi một mô hình ZSL gặp một vật thể vô hình, chẳng hạn như một loài chim quý hiếm, nó sẽ trích xuất các đặc điểm trực quan và so sánh chúng với một từ điển các vectơ ngữ nghĩa. Nếu các đặc điểm trực quan khớp với mô tả ngữ nghĩa của lớp mới, mô hình có thể phân loại chính xác. classify nó thực sự thực hiện một dự đoán "không có kết quả".
Để hiểu đầy đủ về ZSL, cần phân biệt nó với các chiến lược học tập tương tự được sử dụng trong thị giác máy tính (CV) :
Zero-Shot Learning đang thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau bằng cách cho phép các hệ thống có khả năng khái quát hóa vượt ra ngoài quá trình đào tạo ban đầu.
Mô hình YOLO -World Ultralytics minh họa cho phương pháp Zero-Shot Learning trong thực tế. Nó cho phép người dùng định nghĩa các lớp tùy chỉnh một cách linh hoạt trong thời gian chạy mà không cần đào tạo lại mô hình. Điều này đạt được bằng cách kết nối xương sống phát hiện YOLO11 với bộ mã hóa văn bản dựa trên CLIP.
Sau đây là Python ví dụ minh họa cách sử dụng YOLO -Thế giới đến detect các đối tượng không phải là một phần của tiêu chuẩn COCO tập dữ liệu, chẳng hạn như màu sắc cụ thể của quần áo, sử dụng ultralytics bưu kiện.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")
# Show the results
results[0].show()
Mặc dù ZSL có tiềm năng to lớn, nhưng nó cũng phải đối mặt với những thách thức như vấn đề dịch chuyển miền (domain shift ), trong đó các thuộc tính ngữ nghĩa học được trong quá trình huấn luyện không hoàn toàn khớp với hình ảnh trực quan của các lớp chưa được biết đến. Ngoài ra, các mô hình ZSL có thể bị sai lệch , trong đó độ chính xác dự đoán đối với các lớp đã được biết đến cao hơn đáng kể so với các lớp chưa được biết đến (Học Zero-Shot Tổng quát).
Nghiên cứu từ các tổ chức như Phòng thí nghiệm AI của Đại học Stanford và Hiệp hội Máy tính IEEE tiếp tục giải quyết những hạn chế này. Khi các mô hình nền tảng trở nên mạnh mẽ hơn, ZSL dự kiến sẽ trở thành một tính năng tiêu chuẩn trong các công cụ thị giác máy tính , giảm sự phụ thuộc vào các nỗ lực dán nhãn dữ liệu quy mô lớn và dân chủ hóa khả năng tiếp cận các khả năng AI tiên tiến.