Thuật ngữ

Học tập Zero-Shot

Khám phá Zero-Shot Learning: phương pháp AI tiên tiến cho phép các mô hình phân loại dữ liệu chưa thấy, cách mạng hóa phát hiện đối tượng, NLP, v.v.

Zero-Shot Learning (ZSL) là một khả năng thú vị trong học máy (ML), cho phép mô hình nhận dạng và phân loại các đối tượng từ các danh mục mà nó chưa từng thấy trong giai đoạn dữ liệu huấn luyện . Không giống như học có giám sát truyền thống, vốn yêu cầu các ví dụ cụ thể cho mọi lớp có thể, ZSL cho phép mô hình khái quát hóa kiến thức của mình sang các lớp mới, chưa từng thấy. Điều này đạt được bằng cách liên kết các lớp đã quan sát và chưa quan sát thông qua các mô tả ngữ nghĩa cấp cao, chẳng hạn như thuộc tính hoặc nhúng văn bản. Điều này cho phép mô hình AI linh hoạt và có khả năng mở rộng hơn, đặc biệt là trong các tình huống thực tế mà việc thu thập dữ liệu được gắn nhãn đầy đủ là không khả thi.

Nó hoạt động như thế nào?

Ý tưởng cốt lõi đằng sau ZSL là tạo ra một không gian nhúng chung, nơi cả các đặc điểm trực quan từ hình ảnh và thông tin ngữ nghĩa từ văn bản đều có thể được biểu diễn. Trong quá trình huấn luyện, mô hình học cách ánh xạ hình ảnh của các lớp đã thấy với các vectơ ngữ nghĩa tương ứng (thuộc tính hoặc nhúng từ). Ví dụ, mô hình học các đặc điểm trực quan của "con ngựa" và liên kết chúng với một mô tả ngữ nghĩa như "có bốn chân", "là động vật có vú" và "có thể cưỡi được".

Khi được trình bày với hình ảnh của một lớp chưa được biết đến , chẳng hạn như "ngựa vằn", mô hình sẽ trích xuất các đặc điểm thị giác của nó. Đồng thời, nó sử dụng mô tả ngữ nghĩa của "ngựa vằn"—ví dụ: "giống ngựa", "có sọc"—để định vị nó trong không gian nhúng. Bằng cách tìm ra mô tả ngữ nghĩa gần nhất với các đặc điểm thị giác được trích xuất, mô hình có thể phân loại chính xác hình ảnh là "ngựa vằn", ngay cả khi không có một ảnh huấn luyện nào về một con ngựa vằn. Quá trình này thường dựa trên các mô hình đa phương thức mạnh mẽ được huấn luyện trước như CLIP của OpenAI , vốn rất hiệu quả trong việc kết nối thị giác và ngôn ngữ.

Học tập Zero-Shot so với các mô hình khác

Điều quan trọng là phải phân biệt ZSL với các kỹ thuật học tập liên quan:

  • Học ít lần (FSL) : Trong FSL, mô hình được huấn luyện với một số lượng rất nhỏ các ví dụ được gắn nhãn (ví dụ: từ 1 đến 5) cho mỗi lớp mới. Điều này khác với ZSL, hoạt động mà không cần bất kỳ ví dụ nào của lớp mục tiêu.
  • Học một lần (OSL) : Một phân nhóm của FSL, trong đó mô hình nhận được đúng một ví dụ về một lớp mới. Phương pháp này bị hạn chế dữ liệu hơn FSL thông thường nhưng vẫn yêu cầu ít nhất một mẫu, không giống như ZSL.
  • Học chuyển giao : ZSL là một hình thức học chuyển giao, nhưng nó lại độc đáo. Trong khi học chuyển giao tiêu chuẩn thường bao gồm việc tinh chỉnh một mô hình đã được đào tạo trước trên một tập dữ liệu mới (nhỏ hơn) được gắn nhãn, ZSL chuyển giao kiến thức sang các lớp mới chỉ bằng cách sử dụng thông tin ngữ nghĩa bổ trợ, bỏ qua nhu cầu về bất kỳ ví dụ nào được gắn nhãn của các lớp đó.

Ứng dụng trong thế giới thực

ZSL có nhiều ứng dụng thực tế, giúp hệ thống thị giác máy tính trở nên năng động và thích ứng hơn.

  1. Phát hiện Đối tượng bằng Từ vựng Mở : Các mô hình như YOLO-World tận dụng ZSL để phát hiện bất kỳ đối tượng nào được mô tả bằng văn bản. Người dùng có thể cung cấp lời nhắc văn bản như "người mặc áo xanh" hoặc "ống nước rò rỉ", và mô hình có thể định vị các đối tượng này trong luồng hình ảnh hoặc video mà không cần được đào tạo cụ thể về các danh mục cụ thể đó. Đây là một bước tiến quan trọng hướng tới việc tạo ra các hệ thống thị giác thực sự đa năng.
  2. Nhận dạng loài tự động : Trong AI phục vụ bảo tồn động vật hoang dã , ZSL có thể xác định các loài quý hiếm hoặc mới được phát hiện. Một mô hình được huấn luyện trên các loài động vật phổ biến có thể sử dụng các thuộc tính mô tả (ví dụ: "cổ dài", "có đốm", "là động vật ăn cỏ") từ cơ sở kiến thức như Wikipedia để nhận dạng hươu cao cổ, ngay cả khi không có hình ảnh hươu cao cổ nào trong tập huấn luyện ban đầu.

Thách thức và hướng đi trong tương lai

Mặc dù có tiềm năng, ZSL vẫn phải đối mặt với những thách thức như vấn đề hubness (khi một số điểm trong không gian ngữ nghĩa trở thành lân cận gần nhất với quá nhiều điểm) và dịch chuyển miền (khi mối quan hệ giữa các đặc trưng và thuộc tính khác nhau giữa các lớp hữu hình và vô hình). Để giải quyết những vấn đề này, các nhà nghiên cứu đang phát triển các kỹ thuật mạnh mẽ hơn như Học Zero-Shot Tổng quát (GZSL), trong đó mô hình phải nhận dạng cả lớp hữu hình vô hình trong quá trình suy luận. Sự phát triển của các mô hình và nền tảng nền tảng như Ultralytics HUB sẽ đơn giản hóa hơn nữa việc tích hợp và triển khai ZSL, giúp các hệ thống AI ít phụ thuộc vào việc dán nhãn dữ liệu mở rộng và phù hợp hơn với tư duy giống con người.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard