Khám phá Trí tuệ nhân tạo đa phương thức (Multimodal AI) và cách nó tích hợp văn bản và hình ảnh để hiểu ngữ cảnh. Tìm hiểu cách sử dụng Ultralytics YOLO26 và các mô hình từ vựng mở hiện nay.
Trí tuệ nhân tạo đa phương thức (Multimodal AI) đề cập đến một nhóm hệ thống trí tuệ nhân tạo (AI) tinh vi được thiết kế để xử lý, diễn giải và tổng hợp thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là "phương thức", cùng một lúc. Không giống như các hệ thống đơn phương thức truyền thống chuyên về một nguồn đầu vào duy nhất—chẳng hạn như Xử lý ngôn ngữ tự nhiên (NLP) cho văn bản hoặc Thị giác máy tính (CV) cho hình ảnh—trí tuệ nhân tạo đa phương thức mô phỏng nhận thức của con người bằng cách tích hợp các luồng dữ liệu đa dạng. Sự tích hợp này có thể bao gồm việc kết hợp dữ liệu hình ảnh (hình ảnh, video) với dữ liệu ngôn ngữ (văn bản, âm thanh nói) và thông tin cảm giác (LiDAR, radar, nhiệt). Bằng cách tận dụng các đầu vào kết hợp này, các mô hình này đạt được sự hiểu biết sâu sắc hơn, nhận thức ngữ cảnh tốt hơn về các tình huống phức tạp trong thế giới thực, tiến gần hơn đến khả năng rộng lớn của Trí tuệ nhân tạo tổng quát (AGI) .
Điểm mạnh cốt lõi của trí tuệ nhân tạo đa phương thức nằm ở khả năng ánh xạ các loại dữ liệu khác nhau vào một không gian toán học chung, nơi chúng có thể được so sánh và kết hợp. Quá trình này thường bao gồm ba giai đoạn chính: mã hóa, căn chỉnh và hợp nhất.
Trí tuệ nhân tạo đa phương thức đã mở khóa những khả năng mà trước đây các hệ thống đơn phương thức không thể thực hiện được, thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau.
Trong khi các bộ nhận diện đối tượng tiêu chuẩn dựa vào danh sách các danh mục được xác định trước, các phương pháp đa phương thức như YOLO -World cho phép người dùng... detect nhận diện các đối tượng bằng cách sử dụng các gợi ý văn bản với từ vựng mở. Điều này giúp thu hẹp khoảng cách giữa các mệnh lệnh ngôn ngữ và nhận diện hình ảnh trong môi trường làm việc. Ultralytics hệ sinh thái.
Ví dụ sau đây minh họa cách sử dụng ultralytics thư viện để thực hiện phát hiện từ vựng mở, trong đó mô hình phát hiện các đối tượng dựa trên các đầu vào văn bản tùy chỉnh:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Để định hướng trong lĩnh vực học máy hiện đại, việc phân biệt "Trí tuệ nhân tạo đa phương thức" với các khái niệm liên quan là rất hữu ích:
Quá trình phát triển của trí tuệ nhân tạo đa phương thức hướng tới các hệ thống sở hữu khả năng suy luận cao hơn. Bằng cách thành công trong việc gắn ngôn ngữ với thực tế hình ảnh và vật lý, các mô hình này đang vượt ra ngoài mối tương quan thống kê để tiến tới sự hiểu biết thực sự. Nghiên cứu từ các tổ chức như Google DeepMind và Trung tâm Nghiên cứu Mô hình Nền tảng Stanford tiếp tục thúc đẩy giới hạn về cách máy móc nhận thức các môi trường phức tạp.
Tại Ultralytics Chúng tôi đang tích hợp những tiến bộ này vào Nền tảng Ultralytics , cho phép người dùng quản lý dữ liệu, huấn luyện mô hình và triển khai các giải pháp tận dụng tối đa các phương thức có sẵn, kết hợp tốc độ của YOLO26 với tính linh hoạt của đầu vào đa phương thức.