Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Multi-Modal Model

Khám phá cách các mô hình đa phương thức tích hợp văn bản, hình ảnh và âm thanh. Tìm hiểu về các kiến trúc như Ultralytics YOLO26 và triển khai AI thị giác trên Ultralytics Platform.

Mô hình đa phương thức là một loại hệ thống trí tuệ nhân tạo (AI) tiên tiến có khả năng xử lý, diễn giải và tích hợp thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là các "phương thức", cùng một lúc. Trong khi các hệ thống đơn phương thức truyền thống chuyên về một lĩnh vực duy nhất—như Xử lý Ngôn ngữ Tự nhiên (NLP) cho văn bản hoặc Thị giác Máy tính (CV) cho hình ảnh—các mô hình đa phương thức hướng tới việc bắt chước nhận thức của con người bằng cách tổng hợp các tín hiệu thị giác, thính giác và ngôn ngữ lại với nhau. Sự hội tụ này cho phép mô hình phát triển sự hiểu biết toàn diện về thế giới, giúp nó thiết lập các mối tương quan phức tạp giữa một cảnh quan thị giác và một mô tả bằng lời nói. Những khả năng này được coi là các bước nền tảng để đạt được Trí tuệ Nhân tạo Tổng quát (AGI).

Link to this sectionCác Cơ chế và Kiến trúc Cốt lõi#

Hiệu quả của một mô hình đa phương thức phụ thuộc vào khả năng ánh xạ các loại dữ liệu đa dạng vào một không gian ngữ nghĩa chung. Quá trình này thường bắt đầu bằng việc tạo ra các embedding, vốn là các biểu diễn số học nắm bắt được ý nghĩa thiết yếu của dữ liệu đầu vào. Bằng cách huấn luyện trên các tập dữ liệu khổng lồ gồm các cặp ví dụ, chẳng hạn như video kèm phụ đề, mô hình học cách căn chỉnh biểu diễn vectơ của một hình ảnh "con mèo" với embedding văn bản cho từ "con mèo".

Một vài khái niệm kiến trúc chính giúp việc tích hợp này trở nên khả thi:

  • Kiến trúc Transformer: Nhiều hệ thống đa phương thức sử dụng các transformer, vốn áp dụng các cơ chế chú ý (attention mechanisms) để cân nhắc tầm quan trọng của các phần đầu vào khác nhau một cách linh động. Điều này cho phép một mô hình tập trung vào các vùng ảnh cụ thể tương ứng với các từ liên quan trong một câu lệnh văn bản (prompt), một khái niệm được trình bày chi tiết trong bài nghiên cứu nền tảng "Attention Is All You Need".
  • Hợp nhất dữ liệu (Data Fusion): Khái niệm này đề cập đến chiến lược kết hợp thông tin từ các nguồn khác nhau. Hợp nhất cảm biến (Sensor fusion) có thể xảy ra sớm bằng cách hợp nhất dữ liệu thô hoặc muộn bằng cách kết hợp các quyết định từ các mô hình con riêng biệt. Các framework hiện đại như PyTorch cung cấp sự linh hoạt cần thiết để xây dựng các đường ống (pipeline) phức tạp này.
  • Học tương phản (Contrastive Learning): Các kỹ thuật được sử dụng bởi các mô hình như CLIP của OpenAI giúp huấn luyện hệ thống giảm thiểu khoảng cách giữa các cặp văn bản-hình ảnh khớp nhau trong không gian vectơ, đồng thời tối đa hóa khoảng cách giữa các cặp không khớp.

Link to this sectionCác ứng dụng trong thực tế#

Các mô hình đa phương thức đã mở ra những khả năng mà trước đây các hệ thống đơn phương thức không thể đạt được.

  • Trả lời Câu hỏi bằng Thị giác (VQA): Các hệ thống này cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên về một hình ảnh. Ví dụ, một người khiếm thị có thể tải lên một bức ảnh chụp tủ đựng thức ăn và hỏi: "Có hộp súp nào trên kệ trên cùng không?" Mô hình sử dụng phát hiện đối tượng (object detection) để xác định các vật phẩm và NLP để hiểu câu truy vấn, từ đó đưa ra câu trả lời hữu ích.
  • Xe tự lái (Autonomous Vehicles): Xe tự lái hoạt động như các tác nhân đa phương thức theo thời gian thực. Chúng kết hợp các luồng dữ liệu thị giác từ camera, thông tin chiều sâu từ LiDAR và dữ liệu vận tốc từ radar. Sự dự phòng này đảm bảo rằng nếu một cảm biến bị cản trở bởi thời tiết, các cảm biến khác vẫn có thể duy trì an toàn giao thông.
  • Phát hiện Từ vựng Mở (Open-Vocabulary Detection): Các mô hình như Ultralytics YOLO-World cho phép người dùng phát hiện các đối tượng bằng cách sử dụng các câu lệnh văn bản tùy ý thay vì danh sách các lớp cố định. Điều này thu hẹp khoảng cách giữa các lệnh ngôn ngữ và khả năng nhận dạng thị giác.

Link to this sectionVí dụ: Phát hiện Từ vựng Mở#

Ví dụ sau đây minh họa cách sử dụng thư viện ultralytics để thực hiện phát hiện từ vựng mở, nơi mô hình diễn giải các câu lệnh văn bản để xác định các đối tượng trong một hình ảnh:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this sectionPhân biệt với các Thuật ngữ liên quan#

Việc phân biệt "Mô hình Đa phương thức" với các khái niệm liên quan trong bảng thuật ngữ AI là rất hữu ích:

  • Học Đa phương thức (Multi-Modal Learning): Thuật ngữ này đề cập đến quá trình và các kỹ thuật học máy (ML) được sử dụng để huấn luyện các hệ thống này. Mô hình đa phương thức là sản phẩm phần mềm hoặc tạo tác thu được từ quá trình học tập đó.
  • Mô hình Ngôn ngữ Lớn (LLM): Các LLM truyền thống chỉ xử lý văn bản. Mặc dù nhiều mô hình đang phát triển thành các Mô hình Ngôn ngữ-Thị giác (VLM), một LLM tiêu chuẩn vẫn là đơn phương thức.
  • Mô hình Nền tảng (Foundation Models): Đây là một danh mục rộng hơn mô tả các mô hình quy mô lớn có thể thích ứng với nhiều tác vụ hạ nguồn. Mặc dù một mô hình đa phương thức thường là một mô hình nền tảng, nhưng không phải tất cả các mô hình nền tảng đều xử lý nhiều phương thức.

Link to this sectionTương lai của AI Đa phương thức#

Lĩnh vực này đang tiến nhanh tới các hệ thống có khả năng xử lý các luồng âm thanh, video và văn bản liên tục trong thời gian thực. Nghiên cứu từ các tổ chức như Google DeepMind tiếp tục đẩy mạnh các giới hạn của nhận thức máy tính. Tại Ultralytics, chúng tôi hỗ trợ hệ sinh thái này bằng các nền tảng thị giác hiệu năng cao như YOLO26. Ra mắt vào năm 2026, YOLO26 cung cấp tốc độ và độ chính xác vượt trội cho các tác vụ như phân đoạn cá thể (instance segmentation), đóng vai trò là một thành phần thị giác hiệu quả trong các đường ống đa phương thức lớn hơn. Các lập trình viên có thể quản lý dữ liệu, huấn luyện và triển khai các quy trình phức tạp này bằng cách sử dụng Nền tảng Ultralytics hợp nhất.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning