Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

AI đa phương thức

Khám phá AI đa phương thức (Multimodal AI), lĩnh vực mà các hệ thống xử lý và hiểu dữ liệu đa dạng như văn bản, hình ảnh và âm thanh. Tìm hiểu cách nó hoạt động và khám phá các ứng dụng chính.

Trí tuệ nhân tạo đa phương thức (AI) là một nhánh tinh vi của trí tuệ nhân tạo (AI) , xử lý, diễn giải và lập luận bằng nhiều loại dữ liệu cùng lúc. Không giống như các hệ thống đơn phương thức truyền thống chỉ dựa vào một nguồn đầu vào duy nhất—chẳng hạn như Mô hình Ngôn ngữ Lớn (LLM) chỉ có văn bản hoặc bộ phân loại chỉ có hình ảnh—các hệ thống đa phương thức tích hợp nhiều luồng dữ liệu khác nhau như văn bản, hình ảnh, âm thanh, video và dữ liệu cảm biến. Phương pháp này mô phỏng nhận thức của con người, vốn kết hợp thị giác, âm thanh và ngôn ngữ một cách tự nhiên để hình thành nên sự hiểu biết toàn diện về môi trường. Bằng cách tổng hợp các phương thức khác nhau này, các hệ thống này đạt được độ chính xác và nhận thức ngữ cảnh cao hơn, tiến gần hơn đến khả năng của Trí tuệ Nhân tạo Tổng quát (AGI) .

Cơ chế của hệ thống đa phương thức

Kiến trúc của một hệ thống đa phương thức thường bao gồm ba giai đoạn riêng biệt: mã hóa, hợp nhất và giải mã. Đầu tiên, các mạng nơ-ron riêng biệt, chẳng hạn như Mạng Nơ-ron Tích chập (CNN) cho dữ liệu hình ảnh và Bộ biến đổi (Transformer) cho dữ liệu văn bản, sẽ trích xuất các đặc trưng từ mỗi loại đầu vào. Các đặc trưng này được chuyển đổi thành các vectơ số được gọi là nhúng .

Giai đoạn quan trọng là hợp nhất (fusion) , trong đó các nhúng này được kết hợp thành một không gian biểu diễn chung. Các kỹ thuật hợp nhất tiên tiến sử dụng các cơ chế chú ý để cân nhắc tầm quan trọng của các phương thức khác nhau so với nhau. Ví dụ: trong một tác vụ phân tích video, mô hình có thể ưu tiên dữ liệu âm thanh khi nhân vật nói nhưng chuyển trọng tâm sang dữ liệu hình ảnh trong một chuỗi hành động. Các framework như PyTorchTensorFlow cung cấp nền tảng tính toán để xây dựng các kiến trúc phức tạp này.

Các Ứng dụng Thực tế

AI đa phương thức đang thúc đẩy sự đổi mới trong nhiều lĩnh vực khác nhau bằng cách giải quyết các vấn đề đòi hỏi cái nhìn toàn diện về dữ liệu.

  1. Trả lời Câu hỏi Trực quan (VQA): Ứng dụng này cho phép người dùng tương tác với hình ảnh bằng ngôn ngữ tự nhiên. Người dùng có thể tải lên ảnh tủ lạnh và hỏi: "Có những nguyên liệu nào để nấu ăn?". Hệ thống sử dụng thị giác máy tính (CV) để nhận dạng các vật thể và Xử lý Ngôn ngữ Tự nhiên (NLP) để hiểu câu hỏi và đưa ra câu trả lời. Điều này rất quan trọng để phát triển các công cụ hỗ trợ tiếp cận cho người khiếm thị.
  2. Điều hướng tự động: Xe tự lái và robot tự lái phụ thuộc rất nhiều vào sự kết hợp cảm biến. Chúng kết hợp dữ liệu từ camera, LiDAR và radar để detect chướng ngại vật, đọc biển báo giao thông và dự đoán hành vi của người đi bộ. Sự tích hợp này đảm bảo an toàn và độ tin cậy trong môi trường năng động, trọng tâm cốt lõi của AI trong ngành công nghiệp ô tô .
  3. Chẩn đoán chăm sóc sức khỏe: Các công cụ chẩn đoán hiện đại tích hợp phân tích hình ảnh y tế (X-quang, MRI) với hồ sơ lâm sàng dạng văn bản và dữ liệu bộ gen. Bằng cách phân tích các phương thức này cùng nhau, AI có thể cung cấp chẩn đoán chính xác hơn và kế hoạch điều trị được cá nhân hóa, tạo nên một cuộc cách mạng trong lĩnh vực chăm sóc sức khỏe .

Triển khai Tầm nhìn trong Đường ống Đa phương thức

Mặc dù các mô hình đa phương thức đầy đủ rất phức tạp, các thành phần của chúng thường là các mô hình chuyên biệt dễ tiếp cận. Ví dụ, thành phần thị giác của một đường ống đa phương thức thường sử dụng bộ phát hiện vật thể tốc độ cao. Dưới đây là một ví dụ sử dụng Ultralytics YOLO11 để trích xuất các khái niệm thị giác (lớp) từ một hình ảnh, sau đó có thể được đưa vào mô hình ngôn ngữ để suy luận thêm.

from ultralytics import YOLO

# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
    result.show()  # Visualize the detections
    print(result.boxes.cls)  # Print class indices

Phân biệt các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt AI đa phương thức với các thuật ngữ tương tự để hiểu rõ hơn về bối cảnh này:

  • Học đa phương thức : Đây là quy trình kỹ thuật hoặc nguyên lý đào tạo thuật toán để học từ các kiểu dữ liệu hỗn hợp. Nó tập trung vào các hàm mất mát và chiến lược tối ưu hóa được sử dụng trong quá trình đào tạo mô hình .
  • Mô hình đa phương thức : Đây là các hiện vật cụ thể hoặc kiến trúc riêng biệt (như GPT-4o hoặc Gemini) thu được từ quá trình học tập.
  • Mô hình Thị giác Chuyên biệt: Các mô hình như Ultralytics YOLO11 là những chuyên gia chuyên biệt. Trong khi một mô hình đa phương thức có thể mô tả một cảnh chung chung ("Một con phố đông đúc"), một mô hình chuyên biệt lại vượt trội trong việc phát hiện đối tượngphân đoạn thực thể chính xác, cung cấp tọa độ và mặt nạ chính xác. Các mô hình chuyên biệt thường nhanh hơn và hiệu quả hơn cho các tác vụ thời gian thực, như được thấy khi so sánh YOLO11 với RT-DETR .

Định hướng tương lai

Lĩnh vực này đang phát triển nhanh chóng theo hướng các hệ thống có thể tạo ra và hiểu được mọi phương thức một cách liền mạch. Các tổ chức nghiên cứu như Google DeepMindOpenAI đang mở rộng ranh giới của các mô hình nền tảng để căn chỉnh tốt hơn không gian văn bản và hình ảnh tiềm ẩn.

Tại Ultralytics Chúng tôi đang liên tục phát triển thành phần tầm nhìn của hệ sinh thái này. YOLO26 sắp ra mắt đang được thiết kế để mang lại hiệu quả và độ chính xác cao hơn nữa, đóng vai trò là nền tảng trực quan vững chắc cho các ứng dụng đa phương thức trong tương lai. Người dùng quan tâm đến việc tận dụng các khả năng này có thể khám phá việc tích hợp với các công cụ như LangChain để xây dựng hệ thống suy luận phức tạp của riêng họ.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay