Khám phá Zero-Shot Learning: phương pháp AI tiên tiến cho phép các mô hình phân loại dữ liệu chưa thấy, cách mạng hóa phát hiện đối tượng, NLP, v.v.
Zero-Shot Learning (ZSL) là một lĩnh vực hấp dẫn trong Machine Learning (ML) nơi một mô hình được đào tạo để nhận dạng các đối tượng hoặc khái niệm mà nó chưa từng nhìn thấy rõ ràng trong quá trình đào tạo. Không giống như các phương pháp học có giám sát truyền thống đòi hỏi nhiều ví dụ được gắn nhãn cho mọi danh mục có thể, ZSL cho phép các mô hình đưa ra dự đoán về các lớp chưa thấy bằng cách tận dụng thông tin phụ trợ mô tả các lớp mới này. Khả năng này rất quan trọng để xây dựng các hệ thống Trí tuệ nhân tạo (AI) có khả năng thích ứng và mở rộng hơn, đặc biệt là trong các lĩnh vực mà việc thu thập dữ liệu được gắn nhãn cho mọi danh mục có thể hình dung được là không thực tế hoặc không thể.
Ý tưởng cốt lõi đằng sau ZSL là thu hẹp khoảng cách giữa các lớp nhìn thấy và không nhìn thấy bằng cách sử dụng không gian ngữ nghĩa chung. Không gian này thường dựa vào các mô tả, thuộc tính hoặc nhúng cấp cao có nguồn gốc từ văn bản hoặc cơ sở kiến thức. Trong quá trình đào tạo, mô hình học cách ánh xạ giữa dữ liệu đầu vào (như hình ảnh hoặc văn bản) và không gian ngữ nghĩa này, chỉ sử dụng các ví dụ từ các lớp 'nhìn thấy'. Ví dụ, một mô hình có thể học cách liên kết hình ảnh ngựa và hổ (lớp nhìn thấy) với các thuộc tính tương ứng của chúng (ví dụ: "có móng guốc", "có sọc", "là động vật có vú").
Khi được trình bày với một trường hợp của một lớp chưa từng thấy (ví dụ: ngựa vằn), mô hình sẽ trích xuất các đặc điểm của lớp đó và ánh xạ chúng vào không gian ngữ nghĩa đã học. Sau đó, mô hình sẽ so sánh ánh xạ này với các mô tả ngữ nghĩa của các lớp chưa từng thấy (ví dụ: các thuộc tính "có sọc", "có móng guốc", "là động vật có vú" mô tả ngựa vằn). Lớp có mô tả ngữ nghĩa gần nhất trong không gian này sẽ được chọn làm dự đoán. Quá trình này thường liên quan đến các kỹ thuật từ học sâu (DL) , sử dụng các kiến trúc như Mạng nơ-ron tích chập (CNN) để trích xuất đặc điểm và ánh xạ các hàm để liên hệ các đặc điểm trực quan với các thuộc tính ngữ nghĩa, đôi khi tận dụng các khái niệm từ Vision Transformers (ViT) hoặc các mô hình như CLIP .
Điều quan trọng là phải phân biệt ZSL với các mô hình học tập liên quan:
ZSL có tiềm năng đáng kể trong nhiều lĩnh vực:
Mặc dù có triển vọng, ZSL vẫn phải đối mặt với những thách thức như vấn đề hubness (nơi một số điểm trong không gian ngữ nghĩa trở thành hàng xóm gần nhất với nhiều điểm) và sự dịch chuyển miền (nơi mối quan hệ giữa các tính năng và thuộc tính khác nhau giữa các lớp nhìn thấy và không nhìn thấy). Nghiên cứu tiếp tục khám phá các nhúng ngữ nghĩa mạnh mẽ hơn, các hàm ánh xạ tốt hơn và các kỹ thuật như Generalized Zero-Shot Learning (GZSL), nhằm mục đích nhận dạng cả các lớp nhìn thấy và không nhìn thấy trong quá trình suy luận. Sự phát triển của các nền tảng như Ultralytics HUB có thể tạo điều kiện thuận lợi cho việc tích hợp và triển khai các khả năng của ZSL vào các ứng dụng AI thị giác thực tế. Những tiến bộ hơn nữa có thể lấy cảm hứng từ các mô hình đa phương thức vốn liên kết thị giác và ngôn ngữ.