Khám phá Zero-Shot Learning: phương pháp AI tiên tiến cho phép các mô hình phân loại dữ liệu chưa thấy, cách mạng hóa phát hiện đối tượng, NLP, v.v.
Zero-Shot Learning (ZSL) là một khả năng thú vị trong học máy (ML), cho phép mô hình nhận dạng và phân loại các đối tượng từ các danh mục mà nó chưa từng thấy trong giai đoạn dữ liệu huấn luyện . Không giống như học có giám sát truyền thống, vốn yêu cầu các ví dụ cụ thể cho mọi lớp có thể, ZSL cho phép mô hình khái quát hóa kiến thức của mình sang các lớp mới, chưa từng thấy. Điều này đạt được bằng cách liên kết các lớp đã quan sát và chưa quan sát thông qua các mô tả ngữ nghĩa cấp cao, chẳng hạn như thuộc tính hoặc nhúng văn bản. Điều này cho phép mô hình AI linh hoạt và có khả năng mở rộng hơn, đặc biệt là trong các tình huống thực tế mà việc thu thập dữ liệu được gắn nhãn đầy đủ là không khả thi.
Ý tưởng cốt lõi đằng sau ZSL là tạo ra một không gian nhúng chung, nơi cả các đặc điểm trực quan từ hình ảnh và thông tin ngữ nghĩa từ văn bản đều có thể được biểu diễn. Trong quá trình huấn luyện, mô hình học cách ánh xạ hình ảnh của các lớp đã thấy với các vectơ ngữ nghĩa tương ứng (thuộc tính hoặc nhúng từ). Ví dụ, mô hình học các đặc điểm trực quan của "con ngựa" và liên kết chúng với một mô tả ngữ nghĩa như "có bốn chân", "là động vật có vú" và "có thể cưỡi được".
Khi được trình bày với hình ảnh của một lớp chưa được biết đến , chẳng hạn như "ngựa vằn", mô hình sẽ trích xuất các đặc điểm thị giác của nó. Đồng thời, nó sử dụng mô tả ngữ nghĩa của "ngựa vằn"—ví dụ: "giống ngựa", "có sọc"—để định vị nó trong không gian nhúng. Bằng cách tìm ra mô tả ngữ nghĩa gần nhất với các đặc điểm thị giác được trích xuất, mô hình có thể phân loại chính xác hình ảnh là "ngựa vằn", ngay cả khi không có một ảnh huấn luyện nào về một con ngựa vằn. Quá trình này thường dựa trên các mô hình đa phương thức mạnh mẽ được huấn luyện trước như CLIP của OpenAI , vốn rất hiệu quả trong việc kết nối thị giác và ngôn ngữ.
Điều quan trọng là phải phân biệt ZSL với các kỹ thuật học tập liên quan:
ZSL có nhiều ứng dụng thực tế, giúp hệ thống thị giác máy tính trở nên năng động và thích ứng hơn.
Mặc dù có tiềm năng, ZSL vẫn phải đối mặt với những thách thức như vấn đề hubness (khi một số điểm trong không gian ngữ nghĩa trở thành lân cận gần nhất với quá nhiều điểm) và dịch chuyển miền (khi mối quan hệ giữa các đặc trưng và thuộc tính khác nhau giữa các lớp hữu hình và vô hình). Để giải quyết những vấn đề này, các nhà nghiên cứu đang phát triển các kỹ thuật mạnh mẽ hơn như Học Zero-Shot Tổng quát (GZSL), trong đó mô hình phải nhận dạng cả lớp hữu hình và vô hình trong quá trình suy luận. Sự phát triển của các mô hình và nền tảng nền tảng như Ultralytics HUB sẽ đơn giản hóa hơn nữa việc tích hợp và triển khai ZSL, giúp các hệ thống AI ít phụ thuộc vào việc dán nhãn dữ liệu mở rộng và phù hợp hơn với tư duy giống con người.