Khám phá các Mô hình Ngôn ngữ Thị giác (VLM) với Ultralytics Tìm hiểu cách họ kết nối thị giác máy tính và LLM để phát hiện VQA và từ vựng mở bằng cách sử dụng Ultralytics YOLO26.
Mô hình Ngôn ngữ Thị giác (Visual Language Model - VLM) là một loại trí tuệ nhân tạo có khả năng xử lý và diễn giải đồng thời cả thông tin thị giác (hình ảnh hoặc video) và thông tin văn bản. Không giống như các mô hình thị giác máy tính truyền thống chỉ tập trung vào dữ liệu pixel, hoặc các Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) chỉ hiểu văn bản, VLM thu hẹp khoảng cách giữa hai phương thức này. Bằng cách huấn luyện trên các tập dữ liệu khổng lồ chứa các cặp hình ảnh-văn bản, các mô hình này học cách liên kết các đặc điểm thị giác với các khái niệm ngôn ngữ, cho phép chúng mô tả hình ảnh, trả lời các câu hỏi về các cảnh trực quan và thậm chí thực hiện các lệnh dựa trên những gì chúng "nhìn thấy".
Về cơ bản, mô hình ngôn ngữ ký hiệu (VLM) thường bao gồm hai thành phần chính: bộ mã hóa hình ảnh và bộ mã hóa văn bản. Bộ mã hóa hình ảnh xử lý hình ảnh để trích xuất bản đồ đặc trưng và biểu diễn trực quan, trong khi bộ mã hóa văn bản xử lý đầu vào ngôn ngữ. Các luồng dữ liệu riêng biệt này sau đó được kết hợp bằng các cơ chế như chú ý chéo để căn chỉnh thông tin hình ảnh và văn bản trong một không gian nhúng chung.
Những tiến bộ gần đây trong năm 2024 và 2025 đã hướng tới các kiến trúc thống nhất hơn, trong đó một bộ chuyển đổi duy nhất xử lý cả hai phương thức. Ví dụ, các mô hình như Google PaliGemma 2 chứng minh cách tích hợp hiệu quả các luồng dữ liệu này có thể nâng cao hiệu suất trong các tác vụ suy luận phức tạp. Sự đồng bộ này cho phép mô hình hiểu ngữ cảnh, chẳng hạn như nhận ra rằng từ "apple" (quả táo) đề cập đến một loại trái cây trong hình ảnh cửa hàng tạp hóa nhưng lại đề cập đến một công ty công nghệ trong logo.
Khả năng hiểu thế giới thông qua cả thị giác và ngôn ngữ mở ra nhiều ứng dụng đa dạng trong nhiều ngành công nghiệp khác nhau:
Việc phân biệt VLM với các loại AI khác sẽ giúp hiểu rõ vai trò cụ thể của chúng:
Các hệ thống quản lý ngôn ngữ ảo (VLM) hiện đại cho phép phát hiện "từ vựng mở", trong đó bạn có thể detect Các đối tượng được định nghĩa bằng cách sử dụng các lời nhắc văn bản tự do thay vì các lớp được xác định trước. Đây là một tính năng quan trọng của các mô hình như Ultralytics YOLO -World , cho phép định nghĩa lớp động mà không cần huấn luyện lại.
Ví dụ sau đây minh họa cách sử dụng ultralytics đóng gói đến detect Các đối tượng cụ thể được mô tả bằng văn bản:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Mặc dù mạnh mẽ, các mô hình ngôn ngữ hình ảnh vẫn phải đối mặt với những thách thức đáng kể. Một vấn đề lớn là hiện tượng ảo giác , trong đó mô hình tự tin mô tả các đối tượng hoặc văn bản trong hình ảnh mà thực tế không hề tồn tại. Các nhà nghiên cứu đang tích cực nghiên cứu các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) để cải thiện độ chính xác và tính liên kết giữa hình ảnh và mô hình.
Một thách thức khác là chi phí tính toán. Việc huấn luyện các mô hình khổng lồ này đòi hỏi tài nguyên GPU đáng kể. Tuy nhiên, sự ra mắt của các kiến trúc hiệu quả như Ultralytics YOLO26 đang giúp mang lại khả năng thị giác tiên tiến cho các thiết bị biên. Trong tương lai, chúng ta kỳ vọng sẽ thấy VLM đóng vai trò quan trọng trong các tác nhân robot , cho phép robot điều hướng và thao tác các vật thể dựa trên các hướng dẫn bằng lời nói phức tạp.
Đối với những ai quan tâm đến nền tảng lý thuyết, bài báo CLIP gốc của OpenAI cung cấp những hiểu biết tuyệt vời về huấn luyện trước hình ảnh-ngôn ngữ tương phản. Ngoài ra, việc theo dõi các bài báo hội nghị CVPR là rất cần thiết để nắm bắt sự phát triển nhanh chóng của các kiến trúc này. Để thử nghiệm huấn luyện các mô hình thị giác của riêng bạn, bạn có thể sử dụng Nền tảng Ultralytics để quản lý tập dữ liệu và triển khai mô hình một cách hiệu quả.