Khám phá AI đa phương thức (Multimodal AI), lĩnh vực mà các hệ thống xử lý và hiểu dữ liệu đa dạng như văn bản, hình ảnh và âm thanh. Tìm hiểu cách nó hoạt động và khám phá các ứng dụng chính.
Trí tuệ nhân tạo đa phương thức (AI) là một nhánh tinh vi của trí tuệ nhân tạo (AI) , xử lý, diễn giải và lập luận bằng nhiều loại dữ liệu cùng lúc. Không giống như các hệ thống đơn phương thức truyền thống chỉ dựa vào một nguồn đầu vào duy nhất—chẳng hạn như Mô hình Ngôn ngữ Lớn (LLM) chỉ có văn bản hoặc bộ phân loại chỉ có hình ảnh—các hệ thống đa phương thức tích hợp nhiều luồng dữ liệu khác nhau như văn bản, hình ảnh, âm thanh, video và dữ liệu cảm biến. Phương pháp này mô phỏng nhận thức của con người, vốn kết hợp thị giác, âm thanh và ngôn ngữ một cách tự nhiên để hình thành nên sự hiểu biết toàn diện về môi trường. Bằng cách tổng hợp các phương thức khác nhau này, các hệ thống này đạt được độ chính xác và nhận thức ngữ cảnh cao hơn, tiến gần hơn đến khả năng của Trí tuệ Nhân tạo Tổng quát (AGI) .
Kiến trúc của một hệ thống đa phương thức thường bao gồm ba giai đoạn riêng biệt: mã hóa, hợp nhất và giải mã. Đầu tiên, các mạng nơ-ron riêng biệt, chẳng hạn như Mạng Nơ-ron Tích chập (CNN) cho dữ liệu hình ảnh và Bộ biến đổi (Transformer) cho dữ liệu văn bản, sẽ trích xuất các đặc trưng từ mỗi loại đầu vào. Các đặc trưng này được chuyển đổi thành các vectơ số được gọi là nhúng .
Giai đoạn quan trọng là hợp nhất (fusion) , trong đó các nhúng này được kết hợp thành một không gian biểu diễn chung. Các kỹ thuật hợp nhất tiên tiến sử dụng các cơ chế chú ý để cân nhắc tầm quan trọng của các phương thức khác nhau so với nhau. Ví dụ: trong một tác vụ phân tích video, mô hình có thể ưu tiên dữ liệu âm thanh khi nhân vật nói nhưng chuyển trọng tâm sang dữ liệu hình ảnh trong một chuỗi hành động. Các framework như PyTorch và TensorFlow cung cấp nền tảng tính toán để xây dựng các kiến trúc phức tạp này.
AI đa phương thức đang thúc đẩy sự đổi mới trong nhiều lĩnh vực khác nhau bằng cách giải quyết các vấn đề đòi hỏi cái nhìn toàn diện về dữ liệu.
Mặc dù các mô hình đa phương thức đầy đủ rất phức tạp, các thành phần của chúng thường là các mô hình chuyên biệt dễ tiếp cận. Ví dụ, thành phần thị giác của một đường ống đa phương thức thường sử dụng bộ phát hiện vật thể tốc độ cao. Dưới đây là một ví dụ sử dụng Ultralytics YOLO11 để trích xuất các khái niệm thị giác (lớp) từ một hình ảnh, sau đó có thể được đưa vào mô hình ngôn ngữ để suy luận thêm.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
Sẽ rất hữu ích khi phân biệt AI đa phương thức với các thuật ngữ tương tự để hiểu rõ hơn về bối cảnh này:
Lĩnh vực này đang phát triển nhanh chóng theo hướng các hệ thống có thể tạo ra và hiểu được mọi phương thức một cách liền mạch. Các tổ chức nghiên cứu như Google DeepMind và OpenAI đang mở rộng ranh giới của các mô hình nền tảng để căn chỉnh tốt hơn không gian văn bản và hình ảnh tiềm ẩn.
Tại Ultralytics Chúng tôi đang liên tục phát triển thành phần tầm nhìn của hệ sinh thái này. YOLO26 sắp ra mắt đang được thiết kế để mang lại hiệu quả và độ chính xác cao hơn nữa, đóng vai trò là nền tảng trực quan vững chắc cho các ứng dụng đa phương thức trong tương lai. Người dùng quan tâm đến việc tận dụng các khả năng này có thể khám phá việc tích hợp với các công cụ như LangChain để xây dựng hệ thống suy luận phức tạp của riêng họ.