Khám phá cách Mô hình AI đa phương thức (Multi-Modal AI Models) tích hợp văn bản, hình ảnh và hơn thế nữa để tạo ra các hệ thống mạnh mẽ, linh hoạt cho các ứng dụng thực tế.
Mô hình đa phương thức là một hệ thống trí tuệ nhân tạo (AI) tiên tiến có khả năng xử lý, diễn giải và tích hợp thông tin từ nhiều loại dữ liệu khác nhau, hay "phương thức", cùng một lúc. Không giống như các hệ thống đơn phương thức truyền thống chuyên về một lĩnh vực duy nhất—chẳng hạn như Xử lý Ngôn ngữ Tự nhiên (NLP) cho văn bản hoặc Thị giác Máy tính (CV) cho hình ảnh—các mô hình đa phương thức có thể phân tích văn bản, hình ảnh, âm thanh, video và dữ liệu cảm biến cùng lúc. Sự hội tụ này cho phép mô hình phát triển khả năng hiểu biết toàn diện hơn và giống con người hơn về thế giới, vì nó có thể rút ra mối tương quan giữa các tín hiệu thị giác và mô tả ngôn ngữ. Khả năng này là nền tảng cho sự phát triển của Trí tuệ Nhân tạo Tổng quát (AGI) trong tương lai và hiện đang thúc đẩy sự đổi mới trong các lĩnh vực từ robot đến sáng tạo nội dung tự động.
Hiệu quả của các mô hình đa phương thức phụ thuộc vào khả năng ánh xạ các kiểu dữ liệu khác nhau vào một không gian ngữ nghĩa chung. Quá trình này thường bắt đầu bằng việc tạo ra các nhúng dữ liệu — các biểu diễn số của dữ liệu nắm bắt được ý nghĩa cốt lõi của nó. Bằng cách đào tạo trên các tập dữ liệu lớn gồm các ví dụ được ghép nối, chẳng hạn như hình ảnh có chú thích, mô hình sẽ học cách căn chỉnh nhúng của hình ảnh "con chó" với nhúng văn bản của từ "con chó".
Những cải tiến kiến trúc quan trọng giúp cho sự tích hợp này trở nên khả thi:
Các mô hình đa phương thức đã mở ra những khả năng mới mà trước đây không thể thực hiện được ở các hệ thống đơn phương thức.
Ví dụ sau đây minh họa cách sử dụng ultralytics thư viện để thực hiện phát hiện từ vựng mở, trong đó mô hình phát hiện các đối tượng dựa trên các đầu vào văn bản tùy chỉnh:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Điều quan trọng là phải phân biệt "Mô hình đa phương thức" với các khái niệm liên quan trong thuật ngữ AI:
Lĩnh vực này đang nhanh chóng phát triển các mô hình có thể xử lý các luồng âm thanh, video và văn bản liên tục theo thời gian thực. Nghiên cứu từ các tổ chức như Google DeepMind tiếp tục mở rộng ranh giới về khả năng nhận thức của các hệ thống này. Ultralytics Trong khi các mô hình YOLO11 hàng đầu của chúng tôi đặt ra tiêu chuẩn về tốc độ và độ chính xác trong phát hiện đối tượng , chúng tôi cũng đang đổi mới với các kiến trúc như YOLO26 , giúp nâng cao hiệu quả hơn nữa cho cả ứng dụng biên và đám mây. Nhìn về tương lai, Nền tảng Ultralytics toàn diện sẽ cung cấp một môi trường thống nhất để quản lý dữ liệu, đào tạo và triển khai cho các quy trình AI ngày càng phức tạp này.