Multi-Modal Model
Khám phá cách các mô hình đa phương thức tích hợp văn bản, hình ảnh và âm thanh. Tìm hiểu về các kiến trúc như Ultralytics YOLO26 và triển khai AI thị giác trên Ultralytics Platform.
Mô hình đa phương thức là một loại hệ thống trí tuệ nhân tạo (AI) tiên tiến có khả năng xử lý, diễn giải và tích hợp thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là các "phương thức", cùng một lúc. Trong khi các hệ thống đơn phương thức truyền thống chuyên về một lĩnh vực duy nhất—như Xử lý Ngôn ngữ Tự nhiên (NLP) cho văn bản hoặc Thị giác Máy tính (CV) cho hình ảnh—các mô hình đa phương thức hướng tới việc bắt chước nhận thức của con người bằng cách tổng hợp các tín hiệu thị giác, thính giác và ngôn ngữ lại với nhau. Sự hội tụ này cho phép mô hình phát triển sự hiểu biết toàn diện về thế giới, giúp nó thiết lập các mối tương quan phức tạp giữa một cảnh quan thị giác và một mô tả bằng lời nói. Những khả năng này được coi là các bước nền tảng để đạt được Trí tuệ Nhân tạo Tổng quát (AGI).
Link to this sectionCác Cơ chế và Kiến trúc Cốt lõi#
Hiệu quả của một mô hình đa phương thức phụ thuộc vào khả năng ánh xạ các loại dữ liệu đa dạng vào một không gian ngữ nghĩa chung. Quá trình này thường bắt đầu bằng việc tạo ra các embedding, vốn là các biểu diễn số học nắm bắt được ý nghĩa thiết yếu của dữ liệu đầu vào. Bằng cách huấn luyện trên các tập dữ liệu khổng lồ gồm các cặp ví dụ, chẳng hạn như video kèm phụ đề, mô hình học cách căn chỉnh biểu diễn vectơ của một hình ảnh "con mèo" với embedding văn bản cho từ "con mèo".
Một vài khái niệm kiến trúc chính giúp việc tích hợp này trở nên khả thi:
- Kiến trúc Transformer: Nhiều hệ thống đa phương thức sử dụng các transformer, vốn áp dụng các cơ chế chú ý (attention mechanisms) để cân nhắc tầm quan trọng của các phần đầu vào khác nhau một cách linh động. Điều này cho phép một mô hình tập trung vào các vùng ảnh cụ thể tương ứng với các từ liên quan trong một câu lệnh văn bản (prompt), một khái niệm được trình bày chi tiết trong bài nghiên cứu nền tảng "Attention Is All You Need".
- Hợp nhất dữ liệu (Data Fusion): Khái niệm này đề cập đến chiến lược kết hợp thông tin từ các nguồn khác nhau. Hợp nhất cảm biến (Sensor fusion) có thể xảy ra sớm bằng cách hợp nhất dữ liệu thô hoặc muộn bằng cách kết hợp các quyết định từ các mô hình con riêng biệt. Các framework hiện đại như PyTorch cung cấp sự linh hoạt cần thiết để xây dựng các đường ống (pipeline) phức tạp này.
- Học tương phản (Contrastive Learning): Các kỹ thuật được sử dụng bởi các mô hình như CLIP của OpenAI giúp huấn luyện hệ thống giảm thiểu khoảng cách giữa các cặp văn bản-hình ảnh khớp nhau trong không gian vectơ, đồng thời tối đa hóa khoảng cách giữa các cặp không khớp.
Link to this sectionCác ứng dụng trong thực tế#
Các mô hình đa phương thức đã mở ra những khả năng mà trước đây các hệ thống đơn phương thức không thể đạt được.
- Trả lời Câu hỏi bằng Thị giác (VQA): Các hệ thống này cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên về một hình ảnh. Ví dụ, một người khiếm thị có thể tải lên một bức ảnh chụp tủ đựng thức ăn và hỏi: "Có hộp súp nào trên kệ trên cùng không?" Mô hình sử dụng phát hiện đối tượng (object detection) để xác định các vật phẩm và NLP để hiểu câu truy vấn, từ đó đưa ra câu trả lời hữu ích.
- Xe tự lái (Autonomous Vehicles): Xe tự lái hoạt động như các tác nhân đa phương thức theo thời gian thực. Chúng kết hợp các luồng dữ liệu thị giác từ camera, thông tin chiều sâu từ LiDAR và dữ liệu vận tốc từ radar. Sự dự phòng này đảm bảo rằng nếu một cảm biến bị cản trở bởi thời tiết, các cảm biến khác vẫn có thể duy trì an toàn giao thông.
- Phát hiện Từ vựng Mở (Open-Vocabulary Detection): Các mô hình như Ultralytics YOLO-World cho phép người dùng phát hiện các đối tượng bằng cách sử dụng các câu lệnh văn bản tùy ý thay vì danh sách các lớp cố định. Điều này thu hẹp khoảng cách giữa các lệnh ngôn ngữ và khả năng nhận dạng thị giác.
Link to this sectionVí dụ: Phát hiện Từ vựng Mở#
Ví dụ sau đây minh họa cách sử dụng thư viện ultralytics để thực hiện phát hiện từ vựng mở, nơi mô hình diễn giải các câu lệnh văn bản để xác định các đối tượng trong một hình ảnh:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()Link to this sectionPhân biệt với các Thuật ngữ liên quan#
Việc phân biệt "Mô hình Đa phương thức" với các khái niệm liên quan trong bảng thuật ngữ AI là rất hữu ích:
- Học Đa phương thức (Multi-Modal Learning): Thuật ngữ này đề cập đến quá trình và các kỹ thuật học máy (ML) được sử dụng để huấn luyện các hệ thống này. Mô hình đa phương thức là sản phẩm phần mềm hoặc tạo tác thu được từ quá trình học tập đó.
- Mô hình Ngôn ngữ Lớn (LLM): Các LLM truyền thống chỉ xử lý văn bản. Mặc dù nhiều mô hình đang phát triển thành các Mô hình Ngôn ngữ-Thị giác (VLM), một LLM tiêu chuẩn vẫn là đơn phương thức.
- Mô hình Nền tảng (Foundation Models): Đây là một danh mục rộng hơn mô tả các mô hình quy mô lớn có thể thích ứng với nhiều tác vụ hạ nguồn. Mặc dù một mô hình đa phương thức thường là một mô hình nền tảng, nhưng không phải tất cả các mô hình nền tảng đều xử lý nhiều phương thức.
Link to this sectionTương lai của AI Đa phương thức#
Lĩnh vực này đang tiến nhanh tới các hệ thống có khả năng xử lý các luồng âm thanh, video và văn bản liên tục trong thời gian thực. Nghiên cứu từ các tổ chức như Google DeepMind tiếp tục đẩy mạnh các giới hạn của nhận thức máy tính. Tại Ultralytics, chúng tôi hỗ trợ hệ sinh thái này bằng các nền tảng thị giác hiệu năng cao như YOLO26. Ra mắt vào năm 2026, YOLO26 cung cấp tốc độ và độ chính xác vượt trội cho các tác vụ như phân đoạn cá thể (instance segmentation), đóng vai trò là một thành phần thị giác hiệu quả trong các đường ống đa phương thức lớn hơn. Các lập trình viên có thể quản lý dữ liệu, huấn luyện và triển khai các quy trình phức tạp này bằng cách sử dụng Nền tảng Ultralytics hợp nhất.






