Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Visual Question Answering (VQA)

Khám phá Visual Question Answering (VQA) tại điểm giao thoa của CV và NLP. Tìm hiểu cách Ultralytics YOLO26 hỗ trợ VQA cho các ứng dụng thời gian thực và AI đa phương thức.

Visual Question Answering (VQA) là một tác vụ trí tuệ nhân tạo phức tạp nằm tại giao điểm của Computer Vision (CV)Natural Language Processing (NLP). Khác với phân loại hình ảnh truyền thống, vốn gán một nhãn duy nhất cho một bức ảnh, các hệ thống VQA được thiết kế để trả lời các câu hỏi ngôn ngữ tự nhiên mở về nội dung hình ảnh của ảnh. Ví dụ, với một bức ảnh chụp nhà bếp, người dùng có thể hỏi, "Bếp có đang bật không?" hoặc "Có bao nhiêu quả táo trong bát?" Để trả lời chính xác, model phải hiểu ngữ nghĩa của văn bản, xác định các đối tượng liên quan trong khung cảnh, và suy luận về các thuộc tính cũng như mối quan hệ không gian của chúng.

Khả năng này làm cho VQA trở thành một thành phần cơ bản của multimodal AI hiện đại, vì nó đòi hỏi việc xử lý đồng thời các loại dữ liệu khác biệt. Kiến trúc này thường bao gồm một bộ mã hóa hình ảnh (vision encoder), chẳng hạn như Convolutional Neural Network (CNN) hoặc Vision Transformer (ViT), để trích xuất các đặc trưng từ hình ảnh, và một bộ mã hóa văn bản để xử lý truy vấn ngôn ngữ. Các hệ thống tiên tiến sử dụng attention mechanism để căn chỉnh các khái niệm văn bản với các vùng cụ thể của hình ảnh, cho phép AI "nhìn" vào các phần liên quan của bức ảnh trước khi tạo ra câu trả lời.

Link to this sectionCác ứng dụng thực tế và tầm quan trọng#

Khả năng truy vấn dữ liệu hình ảnh một cách linh hoạt đã dẫn đến những ứng dụng mang tính chuyển đổi trong nhiều ngành công nghiệp, giúp tăng cường tự động hóa và khả năng tiếp cận.

  • Công nghệ hỗ trợ: VQA đóng vai trò quan trọng đối với các ứng dụng hỗ trợ người khiếm thị. Các công cụ như Be My Eyes có thể tận dụng VQA để cho phép người dùng chụp ảnh môi trường xung quanh và đặt các câu hỏi như, "Đây là dầu gội hay dầu xả?" hoặc "Liệu băng qua đường có an toàn không?" Điều này thúc đẩy sự độc lập cao hơn bằng cách chuyển đổi thông tin hình ảnh thành các câu trả lời dạng âm thanh.
  • Chẩn đoán y tế: Trong lĩnh vực AI in healthcare, các hệ thống VQA hỗ trợ các bác sĩ chẩn đoán hình ảnh bằng cách phân tích hình ảnh y tế. Một bác sĩ có thể truy vấn hệ thống về một tấm phim X-quang với các câu hỏi như, "Có bằng chứng về vết nứt ở phần tư phía trên bên trái không?" Các nhà nghiên cứu tại National Institutes of Health (NIH) đã khám phá VQA để hợp lý hóa việc ra quyết định lâm sàng và giảm thiểu sai sót trong chẩn đoán.
  • Giám sát thông minh: Các hệ thống an ninh hiện đại sử dụng AI for security để phân tích hàng giờ dữ liệu video. Thay vì xem xét thủ công, người vận hành có thể hỏi, "Có xe tải màu đỏ nào đi vào khu vực bốc dỡ sau nửa đêm không?" VQA cho phép thực hiện anomaly detection nhanh chóng dựa trên các tiêu chí cụ thể thay vì chỉ dựa vào các cảnh báo chuyển động thông thường.

Link to this sectionVai trò của Object Detection trong VQA#

Trong khi một số model VQA được huấn luyện theo hướng end-to-end, nhiều model dựa vào một nền tảng object detection vững chắc để xác định các yếu tố trong khung cảnh trước tiên. Việc xác định chính xác các đối tượng cung cấp ngữ cảnh cần thiết cho bộ máy suy luận. Model Ultralytics YOLO26 là một nền tảng tuyệt vời cho các pipeline này nhờ độ chính xác cao và hiệu suất thời gian thực.

Ví dụ, các nhà phát triển có thể sử dụng YOLO26 để trích xuất các lớp đối tượng và bounding box, sau đó được đưa vào một Large Language Model (LLM) hoặc một module suy luận chuyên biệt để trả lời các truy vấn của người dùng. Việc quản lý các tập dữ liệu để huấn luyện các bộ nền tảng phát hiện này thường được hợp lý hóa bằng cách sử dụng Ultralytics Platform, giúp đơn giản hóa việc gán nhãn và huấn luyện trên cloud.

Ví dụ Python sau đây minh họa cách sử dụng YOLO26 để trích xuất ngữ cảnh hình ảnh (các đối tượng và vị trí của chúng) từ một hình ảnh, đây là bước chính trong quy trình VQA:

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
    result.show()  # Visualize the detections

Link to this sectionPhân biệt VQA với các khái niệm liên quan#

Việc phân biệt VQA với các tác vụ ngôn ngữ-hình ảnh tương tự sẽ giúp hiểu rõ phạm vi độc đáo của nó.

  • VQA so với Image Captioning: Image captioning tạo ra một mô tả tĩnh, chung chung về toàn bộ hình ảnh (ví dụ: "Một chú chó đang chơi trong công viên"). VQA mang tính tương tác và cụ thể; nó cung cấp phản hồi có mục tiêu cho câu hỏi của người dùng thay vì một bản tóm tắt bao quát.
  • VQA so với Visual Grounding: Visual grounding tập trung vào việc xác định vị trí một đối tượng cụ thể được đề cập trong một cụm từ bằng cách vẽ một bounding box xung quanh đối tượng đó. VQA đi xa hơn bằng cách phân tích các thuộc tính, hành động hoặc số lượng của các đối tượng được tìm thấy.
  • VQA so với OCR: Trong khi Optical Character Recognition (OCR) chỉ tập trung vào việc trích xuất văn bản từ hình ảnh, VQA có thể kết hợp OCR để trả lời các câu hỏi như "Biển báo giao thông ghi gì?" Tuy nhiên, chức năng chính của VQA bao gồm sự hiểu biết rộng hơn về khung cảnh thay vì chỉ đọc văn bản.

Các nhà nghiên cứu vẫn đang tiếp tục thúc đẩy lĩnh vực này bằng cách sử dụng các benchmark quy mô lớn như VQA Dataset, giúp các model khái quát hóa trên hàng triệu cặp câu hỏi-hình ảnh. Khi phần cứng ngày càng cải thiện, cho phép giảm inference latency nhanh hơn, VQA đang trở nên khả thi hơn cho các ứng dụng di động và edge thời gian thực.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning