Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình ngôn ngữ thị giác (VLM)

Khám phá các Mô hình Ngôn ngữ Thị giác (VLM) với Ultralytics Tìm hiểu cách họ kết nối thị giác máy tính và LLM để phát hiện VQA và từ vựng mở bằng cách sử dụng Ultralytics YOLO26.

Mô hình Ngôn ngữ Thị giác (Visual Language Model - VLM) là một loại trí tuệ nhân tạo có khả năng xử lý và diễn giải đồng thời cả thông tin thị giác (hình ảnh hoặc video) và thông tin văn bản. Không giống như các mô hình thị giác máy tính truyền thống chỉ tập trung vào dữ liệu pixel, hoặc các Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) chỉ hiểu văn bản, VLM thu hẹp khoảng cách giữa hai phương thức này. Bằng cách huấn luyện trên các tập dữ liệu khổng lồ chứa các cặp hình ảnh-văn bản, các mô hình này học cách liên kết các đặc điểm thị giác với các khái niệm ngôn ngữ, cho phép chúng mô tả hình ảnh, trả lời các câu hỏi về các cảnh trực quan và thậm chí thực hiện các lệnh dựa trên những gì chúng "nhìn thấy".

Cách thức hoạt động của các mô hình ngôn ngữ thị giác

Về cơ bản, mô hình ngôn ngữ ký hiệu (VLM) thường bao gồm hai thành phần chính: bộ mã hóa hình ảnh và bộ mã hóa văn bản. Bộ mã hóa hình ảnh xử lý hình ảnh để trích xuất bản đồ đặc trưng và biểu diễn trực quan, trong khi bộ mã hóa văn bản xử lý đầu vào ngôn ngữ. Các luồng dữ liệu riêng biệt này sau đó được kết hợp bằng các cơ chế như chú ý chéo để căn chỉnh thông tin hình ảnh và văn bản trong một không gian nhúng chung.

Những tiến bộ gần đây trong năm 2024 và 2025 đã hướng tới các kiến ​​trúc thống nhất hơn, trong đó một bộ chuyển đổi duy nhất xử lý cả hai phương thức. Ví dụ, các mô hình như Google PaliGemma 2 chứng minh cách tích hợp hiệu quả các luồng dữ liệu này có thể nâng cao hiệu suất trong các tác vụ suy luận phức tạp. Sự đồng bộ này cho phép mô hình hiểu ngữ cảnh, chẳng hạn như nhận ra rằng từ "apple" (quả táo) đề cập đến một loại trái cây trong hình ảnh cửa hàng tạp hóa nhưng lại đề cập đến một công ty công nghệ trong logo.

Các Ứng dụng Thực tế

Khả năng hiểu thế giới thông qua cả thị giác và ngôn ngữ mở ra nhiều ứng dụng đa dạng trong nhiều ngành công nghiệp khác nhau:

  • Hệ thống trả lời câu hỏi trực quan (VQA): Mô hình học tập trực quan (VLM) được sử dụng rộng rãi trong chẩn đoán y tế để hỗ trợ các bác sĩ X-quang. Một bác sĩ có thể hỏi hệ thống, "Có vết nứt nào trong ảnh X-quang này không?" và mô hình sẽ phân tích hình ảnh y tế để đưa ra đánh giá sơ bộ, giảm thiểu sai sót trong chẩn đoán.
  • Tìm kiếm thông minh trong thương mại điện tử: Trong môi trường bán lẻ , VLM (Virtual Learning Module) cho phép người dùng tìm kiếm sản phẩm bằng cách sử dụng mô tả ngôn ngữ tự nhiên kết hợp với hình ảnh. Một người mua hàng có thể tải lên ảnh trang phục của người nổi tiếng và hỏi, "Tìm cho tôi một chiếc váy có họa tiết này nhưng màu xanh lam", và hệ thống sẽ sử dụng tìm kiếm ngữ nghĩa để tìm ra các kết quả phù hợp chính xác.
  • Phụ đề tự động và khả năng truy cập: Hệ thống quản lý nội dung web (VLM) tự động tạo văn bản thay thế mô tả cho hình ảnh trên web, giúp nội dung kỹ thuật số dễ tiếp cận hơn với người dùng khiếm thị sử dụng phần mềm đọc màn hình.

Phân biệt VLM với các khái niệm liên quan

Việc phân biệt VLM với các loại AI khác sẽ giúp hiểu rõ vai trò cụ thể của chúng:

  • VLM so với LLM: Mô hình ngôn ngữ lớn (như các phiên bản chỉ xử lý văn bản của GPT-4) chỉ xử lý dữ liệu văn bản. Mặc dù nó có thể tạo ra những câu chuyện hoặc mã lập trình sáng tạo, nhưng nó không thể "nhìn thấy" một hình ảnh. VLM về cơ bản cung cấp "đôi mắt" cho LLM.
  • VLM so với Phát hiện đối tượng: Các mô hình phát hiện đối tượng truyền thống, chẳng hạn như các mô hình ban đầu. YOLO Các phiên bản xác định vị trí của các đối tượng và lớp chúng thuộc về (ví dụ: "Ô tô: 99%"). Mô hình VLM còn tiến xa hơn bằng cách hiểu các mối quan hệ và thuộc tính, chẳng hạn như "một chiếc xe thể thao màu đỏ đậu cạnh trụ cứu hỏa."
  • VLM so với Trí tuệ nhân tạo đa phương thức: Trí tuệ nhân tạo đa phương thức là một thuật ngữ bao quát rộng hơn. Mặc dù tất cả các VLM đều là đa phương thức (kết hợp thị giác và ngôn ngữ), nhưng không phải tất cả các mô hình đa phương thức đều là VLM; một số có thể kết hợp âm thanh và văn bản (như chuyển đổi giọng nói thành văn bản) hoặc video và dữ liệu cảm biến mà không có thành phần ngôn ngữ.

Phát hiện từ vựng mở với YOLO

Các hệ thống quản lý ngôn ngữ ảo (VLM) hiện đại cho phép phát hiện "từ vựng mở", trong đó bạn có thể detect Các đối tượng được định nghĩa bằng cách sử dụng các lời nhắc văn bản tự do thay vì các lớp được xác định trước. Đây là một tính năng quan trọng của các mô hình như Ultralytics YOLO -World , cho phép định nghĩa lớp động mà không cần huấn luyện lại.

Ví dụ sau đây minh họa cách sử dụng ultralytics đóng gói đến detect Các đối tượng cụ thể được mô tả bằng văn bản:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Thách thức và Định hướng Tương lai

Mặc dù mạnh mẽ, các mô hình ngôn ngữ hình ảnh vẫn phải đối mặt với những thách thức đáng kể. Một vấn đề lớn là hiện tượng ảo giác , trong đó mô hình tự tin mô tả các đối tượng hoặc văn bản trong hình ảnh mà thực tế không hề tồn tại. Các nhà nghiên cứu đang tích cực nghiên cứu các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) để cải thiện độ chính xác và tính liên kết giữa hình ảnh và mô hình.

Một thách thức khác là chi phí tính toán. Việc huấn luyện các mô hình khổng lồ này đòi hỏi tài nguyên GPU đáng kể. Tuy nhiên, sự ra mắt của các kiến ​​trúc hiệu quả như Ultralytics YOLO26 đang giúp mang lại khả năng thị giác tiên tiến cho các thiết bị biên. Trong tương lai, chúng ta kỳ vọng sẽ thấy VLM đóng vai trò quan trọng trong các tác nhân robot , cho phép robot điều hướng và thao tác các vật thể dựa trên các hướng dẫn bằng lời nói phức tạp.

Đối với những ai quan tâm đến nền tảng lý thuyết, bài báo CLIP gốc của OpenAI cung cấp những hiểu biết tuyệt vời về huấn luyện trước hình ảnh-ngôn ngữ tương phản. Ngoài ra, việc theo dõi các bài báo hội nghị CVPR là rất cần thiết để nắm bắt sự phát triển nhanh chóng của các kiến ​​trúc này. Để thử nghiệm huấn luyện các mô hình thị giác của riêng bạn, bạn có thể sử dụng Nền tảng Ultralytics để quản lý tập dữ liệu và triển khai mô hình một cách hiệu quả.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay