Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Trả lời câu hỏi trực quan (VQA)

Khám phá Trả lời câu hỏi trực quan (VQA): cách AI đa phương thức kết hợp thị giác máy tính và NLP để trả lời các câu hỏi dựa trên hình ảnh, với các phương pháp chính và trường hợp sử dụng thực tế.

Trả lời Câu hỏi Trực quan (VQA) là một nhiệm vụ đa ngành phức tạp trong trí tuệ nhân tạo (AI) , thu hẹp khoảng cách giữa Thị giác Máy tính (CV)Xử lý Ngôn ngữ Tự nhiên (NLP) . Trong khi các hệ thống thị giác máy tính truyền thống tập trung vào việc nhận dạng đối tượng hoặc phân loại hình ảnh, các hệ thống VQA được thiết kế để cung cấp câu trả lời ngôn ngữ tự nhiên cho một câu hỏi cụ thể dựa trên nội dung trực quan của hình ảnh. Ví dụ: với một bức ảnh chụp cảnh đường phố và câu hỏi "Chiếc xe bên trái màu gì?", mô hình VQA sẽ phân tích hình ảnh, xác định vị trí của đối tượng cụ thể, xác định các thuộc tính của nó và đưa ra câu trả lời văn bản chính xác. Khả năng suy luận trên nhiều phương thức dữ liệu khác nhau này khiến VQA trở thành một thành phần cơ bản của AI đa phương thức tiên tiến.

Cách thức hoạt động của Trả lời câu hỏi trực quan

Kiến trúc của một hệ thống VQA thường bao gồm ba giai đoạn chính: trích xuất đặc trưng, hợp nhất đa phương thức và tạo câu trả lời. Ban đầu, hệ thống sử dụng các mô hình học sâu để xử lý dữ liệu đầu vào. Một mô hình thị giác, chẳng hạn như Mạng Nơ-ron Tích chập (CNN) hoặc Bộ chuyển đổi Thị giác (ViT) , sẽ trích xuất các đặc trưng trực quan từ hình ảnh. Đồng thời, câu hỏi văn bản được mã hóa và chuyển đổi thành các giá trị nhúng bằng mô hình ngôn ngữ.

Bước quan trọng là sự hợp nhất của hai luồng thông tin này. Các hệ thống hiện đại thường sử dụng cơ chế chú ý , một khái niệm được phổ biến bởi bài nghiên cứu "Chú ý là tất cả những gì bạn cần" , để căn chỉnh các từ văn bản với các vùng tương ứng trong hình ảnh. Điều này cho phép mô hình "nhìn" vào phần liên quan của hình ảnh (ví dụ: chiếc xe) khi xử lý từ "màu sắc". Cuối cùng, mô hình dự đoán một câu trả lời, thực sự coi vấn đề như một nhiệm vụ phân loại chuyên biệt trên một tập hợp các câu trả lời khả thi. Việc huấn luyện các mô hình này đòi hỏi dữ liệu huấn luyện được chú thích khổng lồ, chẳng hạn như Bộ dữ liệu VQA chuẩn, chứa hàng triệu bộ ba hình ảnh-câu hỏi-câu trả lời.

Trong khi các hệ thống VQA rất phức tạp, thành phần trực quan thường dựa vào khả năng phát hiện mạnh mẽ. Bạn có thể thấy một mô hình như YOLO11 trích xuất dữ liệu đối tượng cơ bản bên dưới:

from ultralytics import YOLO

# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()

Các Ứng dụng Thực tế

Công nghệ VQA đang chuyển đổi các ngành công nghiệp bằng cách cho phép máy móc hiểu bối cảnh theo cách giống con người.

  1. Công nghệ hỗ trợ người khiếm thị : Một trong những ứng dụng có tác động mạnh mẽ nhất là các công cụ hỗ trợ tiếp cận. Các ứng dụng như Be My Eyes tận dụng khả năng tư duy trực quan để mô tả môi trường xung quanh cho người dùng khiếm thị hoặc thị lực kém. Người dùng có thể chụp ảnh tủ đựng thức ăn của mình và hỏi: "Đây là lon súp cà chua hay mì gà?", giúp họ tự lập hơn trong cuộc sống hàng ngày.
  2. Phân tích Hình ảnh Y tế : Trong lĩnh vực AI chăm sóc sức khỏe , VQA hỗ trợ các chuyên gia bằng cách hoạt động như một ý kiến thứ hai thông minh. Một bác sĩ X-quang có thể truy vấn hệ thống về kết quả chụp MRI bằng những câu hỏi như: "Có dấu hiệu gãy xương nào ở vùng này không?" Nghiên cứu được lưu trữ trên PubMed làm nổi bật cách các hệ thống này có thể cải thiện độ chính xác chẩn đoán và tăng tốc quy trình làm việc lâm sàng.
  3. Giám sát Thông minh : Nhân viên an ninh sử dụng VQA để truy vấn hàng giờ video ngay lập tức. Thay vì xem thủ công, nhân viên an ninh sử dụng AI chỉ cần nhập "Có xe tải màu đỏ nào vào cơ sở sau nửa đêm không?" để truy xuất các sự kiện liên quan.

Mối quan hệ với các khái niệm liên quan

Để hiểu đầy đủ về VQA, chúng ta cần phân biệt nó với các thuật ngữ tương tự trong lĩnh vực học máy (ML) :

  • VQA so với Chú thích hình ảnh : Chú thích hình ảnh liên quan đến việc tạo ra một mô tả chung cho toàn bộ hình ảnh (ví dụ: "Một chú chó đang chơi trong công viên"). Ngược lại, VQA hướng đến mục tiêu và trả lời một câu hỏi cụ thể, đòi hỏi lý luận chính xác hơn.
  • VQA so với Visual Grounding : Grounding là nhiệm vụ xác định vị trí một đối tượng cụ thể được đề cập trong mô tả văn bản (ví dụ: vẽ khung giới hạn xung quanh "người đàn ông mặc áo sơ mi xanh"). VQA thường sử dụng grounding như một bước trung gian để trả lời câu hỏi về đối tượng đó.
  • VQA so với Phát hiện Đối tượng : Các mô hình phát hiện như YOLO11 xác định nội dung và vị trí của đối tượng trong ảnh. VQA tiến xa hơn một bước để hiểu các thuộc tính và mối quan hệ của các đối tượng đó nhằm đáp ứng truy vấn của người dùng.

Sự phát triển của VQA được hỗ trợ bởi các nền tảng mã nguồn mở như PyTorchTensorFlow , và tiếp tục phát triển với sự gia tăng của các Mô hình ngôn ngữ lớn (LLM) được tích hợp vào các quy trình xử lý thị giác.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay