Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Multimodal AI

Khám phá Multimodal AI và cách nó tích hợp văn bản và tầm nhìn để hiểu theo ngữ cảnh. Tìm hiểu cách sử dụng Ultralytics YOLO26 và các model open-vocabulary ngay hôm nay.

AI Đa phương thức (Multimodal AI) đề cập đến một lớp tinh vi của các hệ thống trí tuệ nhân tạo (AI) được thiết kế để xử lý, diễn giải và tổng hợp thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là các "phương thức" (modalities), cùng một lúc. Khác với các hệ thống đơn phương thức truyền thống chuyên biệt cho một nguồn đầu vào duy nhất—như Xử lý Ngôn ngữ Tự nhiên (NLP) cho văn bản hoặc Thị giác Máy tính (CV) cho hình ảnh—AI đa phương thức mô phỏng nhận thức con người bằng cách tích hợp các luồng dữ liệu đa dạng. Sự tích hợp này có thể bao gồm việc kết hợp dữ liệu thị giác (hình ảnh, video) với dữ liệu ngôn ngữ (văn bản, âm thanh) và thông tin cảm biến (LiDAR, radar, nhiệt). Bằng cách tận dụng các đầu vào kết hợp này, các model này đạt được sự hiểu biết sâu sắc và có ngữ cảnh hơn về các tình huống thực tế phức tạp, tiến gần hơn đến các khả năng rộng lớn của Trí tuệ Nhân tạo Tổng quát (AGI).

Link to this sectionCách thức hoạt động của các hệ thống đa phương thức#

Sức mạnh cốt lõi của AI đa phương thức nằm ở khả năng ánh xạ các loại dữ liệu khác nhau vào một không gian toán học chung, nơi chúng có thể được so sánh và kết hợp. Quá trình này thường bao gồm ba giai đoạn chính: mã hóa (encoding), căn chỉnh (alignment) và hợp nhất (fusion).

  1. Trích xuất Đặc trưng: Các mạng thần kinh chuyên biệt xử lý độc lập từng phương thức để xác định các mẫu quan trọng. Ví dụ, một Mạng Thần kinh Tích chập (CNN) có thể trích xuất các đặc trưng thị giác từ một bức ảnh, trong khi một Transformer xử lý chú thích đi kèm.

  2. Căn chỉnh và Embedding: Các đặc trưng được trích xuất được chuyển đổi thành các vectơ số nhiều chiều. Model học cách căn chỉnh các vectơ này sao cho các khái niệm tương đồng về mặt ngữ nghĩa (ví dụ: hình ảnh một con mèo và từ "mèo" trong văn bản) nằm gần nhau trong không gian vectơ. Điều này thường đạt được thông qua các kỹ thuật như học tương phản, một phương pháp nổi tiếng được sử dụng trong các model như CLIP của OpenAI.

  3. Hợp nhất Dữ liệu: Hệ thống hợp nhất dữ liệu đã được căn chỉnh bằng cách sử dụng các kỹ thuật hợp nhất tiên tiến. Các kiến trúc hiện đại sử dụng cơ chế attention để cân nhắc động tầm quan trọng của phương thức này so với phương thức khác tùy thuộc vào ngữ cảnh, cho phép model tập trung vào văn bản khi hình ảnh không rõ ràng, hoặc ngược lại.

Link to this sectionCác ứng dụng trong thực tế#

AI đa phương thức đã mở ra những khả năng trước đây vốn không thể thực hiện được với các hệ thống đơn phương thức, thúc đẩy sự đổi mới trên nhiều ngành công nghiệp khác nhau.

  • Giải đáp Câu hỏi về Thị giác (VQA): Trong ứng dụng này, người dùng có thể cung cấp một hình ảnh cho AI và đặt các câu hỏi bằng ngôn ngữ tự nhiên về hình ảnh đó. Ví dụ, một người khiếm thị có thể tải lên bức ảnh tủ đựng thức ăn và hỏi: "Tôi còn mì ống không?" Model sẽ xử lý nội dung thị giác và truy vấn văn bản để cung cấp câu trả lời cụ thể.
  • Xe Tự lái: Xe tự lái dựa nhiều vào các đầu vào đa phương thức, kết hợp dữ liệu từ camera, đám mây điểm LiDAR và radar để di chuyển an toàn. Sự dư thừa này đảm bảo rằng nếu một cảm biến bị lỗi (ví dụ: camera bị lóa do ánh nắng mặt trời), các cảm biến khác có thể duy trì các tiêu chuẩn an toàn do Hiệp hội Kỹ sư Ô tô (SAE) xác định.
  • Chẩn đoán Y tế: Các hệ thống AI y tế tiên tiến phân tích phân tích hình ảnh y tế (như MRI hoặc X-quang) cùng với lịch sử bệnh nhân dạng văn bản phi cấu trúc và dữ liệu di truyền. Cái nhìn toàn diện này hỗ trợ các bác sĩ đưa ra chẩn đoán chính xác hơn, một chủ đề thường xuyên được thảo luận trên Nature Digital Medicine.
  • AI tạo sinh (Generative AI): Các công cụ tạo hình ảnh từ văn bản mô tả, chẳng hạn như Stable Diffusion, hoàn toàn dựa vào khả năng của mô hình trong việc hiểu mối quan hệ giữa các mô tả ngôn ngữ và kết cấu hình ảnh.

Link to this sectionPhát hiện Từ vựng Mở (Open-Vocabulary Detection) với Ultralytics#

Trong khi các bộ phát hiện đối tượng tiêu chuẩn dựa vào danh sách các danh mục được xác định trước, các phương pháp tiếp cận đa phương thức như YOLO-World cho phép người dùng phát hiện đối tượng bằng cách sử dụng các câu lệnh văn bản từ vựng mở. Điều này thu hẹp khoảng cách giữa các lệnh ngôn ngữ và nhận dạng thị giác trong hệ sinh thái Ultralytics.

Ví dụ sau đây minh họa cách sử dụng thư viện ultralytics để thực hiện phát hiện từ vựng mở, nơi model phát hiện đối tượng dựa trên các đầu vào văn bản tùy chỉnh:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionPhân biệt các thuật ngữ liên quan#

Để điều hướng bối cảnh máy học hiện đại, việc phân biệt "AI Đa phương thức" với các khái niệm liên quan là rất hữu ích:

  • Học Đa phương thức (Multi-Modal Learning): Thuật ngữ này đề cập đến kỷ luật học thuật và phương pháp luận huấn luyện các thuật toán trên các loại dữ liệu hỗn hợp. "AI Đa phương thức" thường đề cập đến ứng dụng thực tế hoặc chính hệ thống kết quả.
  • Các Mô hình Ngôn ngữ Lớn (LLM): Các LLM truyền thống là đơn phương thức, được huấn luyện độc quyền trên dữ liệu văn bản. Tuy nhiên, ngành công nghiệp đang chuyển dịch sang các "Mô hình Đa phương thức Lớn" (LMMs) có thể xử lý hình ảnh và văn bản một cách tự nhiên, một xu hướng được hỗ trợ bởi các framework như PyTorchTensorFlow.
  • Các Mô hình Thị giác Chuyên biệt: Các model như Ultralytics YOLO26 tiên tiến nhất là những chuyên gia có chuyên môn cao trong các tác vụ thị giác. Trong khi một model đa phương thức tổng quát có thể mô tả một cảnh một cách bao quát, các model chuyên biệt lại vượt trội trong việc phát hiện đối tượng chính xác, tốc độ cao và xử lý thời gian thực trên các phần cứng biên.

Link to this sectionTriển vọng tương lai#

Quỹ đạo của AI đa phương thức hướng tới các hệ thống sở hữu khả năng suy luận mạnh mẽ hơn. Bằng cách kết nối ngôn ngữ thành công với thực tại vật lý và thị giác, các model này đang vượt xa hơn sự tương quan thống kê để tiến tới sự hiểu biết thực sự. Nghiên cứu từ các tổ chức như Google DeepMindTrung tâm Stanford về Nghiên cứu các Mô hình Nền tảng (Stanford Center for Research on Foundation Models) tiếp tục đẩy mạnh các ranh giới về cách máy móc cảm nhận các môi trường phức tạp.

Tại Ultralytics, chúng tôi đang tích hợp những tiến bộ này vào Nền tảng Ultralytics, cho phép người dùng quản lý dữ liệu, huấn luyện các model và triển khai các giải pháp tận dụng toàn bộ phổ phương thức khả dụng, kết hợp tốc độ của YOLO26 với tính linh hoạt của các đầu vào đa phương thức.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning