Zero-Shot Learning
Khám phá Zero-Shot Learning (ZSL) để phát hiện và phân loại đối tượng mà không cần dữ liệu huấn luyện. Tìm hiểu cách Ultralytics YOLO-World cho phép phát hiện từ vựng mở thời gian thực.
Zero-Shot Learning (ZSL) là một mô hình học máy cho phép các mô hình trí tuệ nhân tạo nhận diện, phân loại hoặc phát hiện các đối tượng mà chúng chưa từng gặp trong giai đoạn huấn luyện. Trong supervised learning truyền thống, một mô hình cần hàng ngàn ví dụ được dán nhãn cho mỗi danh mục cụ thể mà nó cần nhận diện. ZSL loại bỏ sự phụ thuộc chặt chẽ này bằng cách tận dụng thông tin bổ trợ—thường là các mô tả văn bản, thuộc tính ngữ nghĩa hoặc embeddings—để thu hẹp khoảng cách giữa các lớp đã thấy và chưa thấy. Khả năng này cho phép các hệ thống artificial intelligence (AI) trở nên linh hoạt, có khả năng mở rộng đáng kể và xử lý được các môi trường năng động, nơi việc thu thập dữ liệu toàn diện cho mọi đối tượng khả thi là không thực tế.
Link to this sectionCách thức hoạt động của Zero-Shot Learning#
Cơ chế cốt lõi của ZSL liên quan đến việc chuyển giao kiến thức từ các khái niệm quen thuộc sang các khái niệm chưa quen thuộc bằng cách sử dụng một không gian ngữ nghĩa chung. Thay vì học cách nhận diện một "con ngựa vằn" chỉ bằng cách ghi nhớ các mẫu pixel của các sọc đen và trắng, mô hình học mối quan hệ giữa các đặc trưng thị giác và các thuộc tính ngữ nghĩa (ví dụ: "hình dáng giống ngựa", "họa tiết sọc", "bốn chân") có nguồn gốc từ natural language processing (NLP).
Quá trình này thường dựa vào các multi-modal models giúp căn chỉnh các biểu diễn hình ảnh và văn bản. Ví dụ, các nghiên cứu nền tảng như OpenAI's CLIP chứng minh cách các mô hình có thể học các khái niệm thị giác từ sự giám sát của ngôn ngữ tự nhiên. Khi một mô hình ZSL gặp một đối tượng chưa từng thấy, nó trích xuất các đặc trưng thị giác và so sánh chúng với một từ điển các vector ngữ nghĩa. Nếu các đặc trưng thị giác khớp với mô tả ngữ nghĩa của lớp mới, mô hình có thể phân loại chính xác, thực hiện hiệu quả dự đoán "zero-shot". Cách tiếp cận này là nền tảng cho các foundation models hiện đại, vốn có khả năng khái quát hóa trên vô số các tác vụ.
Link to this sectionCác ứng dụng trong thực tế#
Zero-Shot Learning đang thúc đẩy sự đổi mới trên nhiều ngành công nghiệp khác nhau bằng cách cho phép các hệ thống khái quát hóa vượt ra ngoài dữ liệu huấn luyện ban đầu của chúng.
-
Open-Vocabulary Object Detection: Các kiến trúc hiện đại như YOLO-World sử dụng ZSL để phát hiện đối tượng dựa trên các câu lệnh văn bản do người dùng xác định. Điều này cho phép thực hiện object detection trong các kịch bản mà việc xác định trước một danh sách cố định các lớp là không thể, chẳng hạn như tìm kiếm các mục cụ thể trong các kho lưu trữ video khổng lồ. Các nhà nghiên cứu tại Google Research tiếp tục đẩy mạnh giới hạn của các khả năng open-vocabulary này.
-
Chẩn đoán y tế: Trong AI in healthcare, việc thu thập dữ liệu được dán nhãn cho các bệnh hiếm gặp thường khó khăn và tốn kém. Các mô hình ZSL có thể được huấn luyện trên các tình trạng phổ biến và mô tả các triệu chứng hiếm gặp từ tài liệu y khoa được tìm thấy trong các cơ sở dữ liệu như PubMed, cho phép hệ thống gắn cờ các bất thường hiếm gặp tiềm ẩn trong chẩn đoán hình ảnh y tế mà không yêu cầu một tập dữ liệu khổng lồ về các trường hợp dương tính.
-
Bảo tồn động vật hoang dã: Đối với AI in agriculture và sinh thái học, việc xác định các loài có nguy cơ tuyệt chủng mà hiếm khi được chụp ảnh là rất quan trọng. ZSL cho phép các nhà bảo tồn phát hiện những động vật này bằng cách sử dụng các mô tả dựa trên thuộc tính được xác định trong các cơ sở dữ liệu sinh học như Encyclopedia of Life.
Link to this sectionZero-Shot Detection với Ultralytics#
Mô hình Ultralytics YOLO-World là ví dụ điển hình cho Zero-Shot Learning trong thực tế. Nó cho phép người dùng xác định các lớp tùy chỉnh một cách linh hoạt tại thời điểm chạy mà không cần huấn luyện lại mô hình. Điều này đạt được bằng cách kết nối một backbone phát hiện mạnh mẽ với một bộ mã hóa văn bản có khả năng hiểu ngôn ngữ tự nhiên.
Ví dụ Python sau đây minh họa cách sử dụng YOLO-World để phát hiện các đối tượng không nằm trong một tập huấn luyện tiêu chuẩn bằng cách sử dụng gói ultralytics.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()Link to this sectionSự khác biệt với các khái niệm liên quan#
Để hiểu đầy đủ về ZSL, cần phân biệt nó với các chiến lược học tập tương tự được sử dụng trong computer vision (CV):
- Few-Shot Learning (FSL): Trong khi ZSL không yêu cầu bất kỳ ví dụ nào về lớp mục tiêu, FSL cung cấp cho mô hình một tập hỗ trợ rất nhỏ (thường từ 1 đến 5 ví dụ) để thích nghi. ZSL thường được coi là thách thức hơn vì nó hoàn toàn dựa vào suy luận ngữ nghĩa thay vì các ví dụ thị giác.
- One-Shot Learning: Một tập con của FSL, trong đó mô hình học từ đúng một ví dụ được dán nhãn. ZSL khác biệt về cơ bản vì nó hoạt động mà không cần dù chỉ một hình ảnh của danh mục mới.
- Transfer Learning: Thuật ngữ rộng này đề cập đến việc chuyển giao kiến thức từ tác vụ này sang tác vụ khác. ZSL là một loại transfer learning cụ thể sử dụng các thuộc tính ngữ nghĩa để chuyển giao kiến thức sang các lớp chưa thấy mà không cần fine-tuning truyền thống trên dữ liệu mới.
Link to this sectionNhững thách thức và Triển vọng tương lai#
Mặc dù ZSL mang lại tiềm năng to lớn, nó đối mặt với các thách thức như vấn đề dịch chuyển miền (domain shift problem), nơi các thuộc tính ngữ nghĩa học được trong quá trình huấn luyện không khớp hoàn hảo với sự xuất hiện thị giác của các lớp chưa thấy. Ngoài ra, các mô hình ZSL có thể bị thiên lệch, trong đó độ chính xác dự đoán cao hơn đáng kể đối với các lớp đã thấy so với các lớp chưa thấy.
Nghiên cứu từ các tổ chức như Stanford University's AI Lab và IEEE Computer Society tiếp tục giải quyết các hạn chế này. Khi các computer vision tools trở nên mạnh mẽ hơn, ZSL được kỳ vọng sẽ trở thành một tính năng tiêu chuẩn, giảm bớt sự phụ thuộc vào các nỗ lực data labeling khổng lồ. Đối với các nhóm đang tìm cách quản lý tập dữ liệu hiệu quả trước khi triển khai các mô hình tiên tiến, Ultralytics Platform cung cấp các công cụ toàn diện cho việc gán nhãn và quản lý tập dữ liệu.






