Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình đa phương thức

Khám phá cách Mô hình AI đa phương thức (Multi-Modal AI Models) tích hợp văn bản, hình ảnh và hơn thế nữa để tạo ra các hệ thống mạnh mẽ, linh hoạt cho các ứng dụng thực tế.

Mô hình đa phương thức là một hệ thống trí tuệ nhân tạo (AI) tiên tiến có khả năng xử lý, diễn giải và tích hợp thông tin từ nhiều loại dữ liệu khác nhau, hay "phương thức", cùng một lúc. Không giống như các hệ thống đơn phương thức truyền thống chuyên về một lĩnh vực duy nhất—chẳng hạn như Xử lý Ngôn ngữ Tự nhiên (NLP) cho văn bản hoặc Thị giác Máy tính (CV) cho hình ảnh—các mô hình đa phương thức có thể phân tích văn bản, hình ảnh, âm thanh, video và dữ liệu cảm biến cùng lúc. Sự hội tụ này cho phép mô hình phát triển khả năng hiểu biết toàn diện hơn và giống con người hơn về thế giới, vì nó có thể rút ra mối tương quan giữa các tín hiệu thị giác và mô tả ngôn ngữ. Khả năng này là nền tảng cho sự phát triển của Trí tuệ Nhân tạo Tổng quát (AGI) trong tương lai và hiện đang thúc đẩy sự đổi mới trong các lĩnh vực từ robot đến sáng tạo nội dung tự động.

Cơ chế cốt lõi

Hiệu quả của các mô hình đa phương thức phụ thuộc vào khả năng ánh xạ các kiểu dữ liệu khác nhau vào một không gian ngữ nghĩa chung. Quá trình này thường bắt đầu bằng việc tạo ra các nhúng dữ liệu — các biểu diễn số của dữ liệu nắm bắt được ý nghĩa cốt lõi của nó. Bằng cách đào tạo trên các tập dữ liệu lớn gồm các ví dụ được ghép nối, chẳng hạn như hình ảnh có chú thích, mô hình sẽ học cách căn chỉnh nhúng của hình ảnh "con chó" với nhúng văn bản của từ "con chó".

Những cải tiến kiến trúc quan trọng giúp cho sự tích hợp này trở nên khả thi:

  • Kiến trúc Biến áp : Được đề xuất ban đầu trong bài báo "Attention Is All You Need" , biến áp sử dụng cơ chế chú ý để cân nhắc tầm quan trọng của các thành phần đầu vào khác nhau một cách động. Điều này cho phép mô hình tập trung vào các vùng thị giác có liên quan khi xử lý một truy vấn văn bản cụ thể.
  • Hợp nhất dữ liệu: Thông tin từ các nguồn khác nhau phải được kết hợp hiệu quả. Các chiến lược bao gồm từ hợp nhất sớm (kết hợp dữ liệu thô) đến hợp nhất muộn (kết hợp các quyết định mô hình). Các nền tảng hiện đại như PyTorchTensorFlow cung cấp các công cụ linh hoạt cần thiết để triển khai các kiến trúc phức tạp này.

Các Ứng dụng Thực tế

Các mô hình đa phương thức đã mở ra những khả năng mới mà trước đây không thể thực hiện được ở các hệ thống đơn phương thức.

  • Trả lời Câu hỏi Trực quan (VQA) : Các hệ thống này có thể phân tích hình ảnh và trả lời các câu hỏi bằng ngôn ngữ tự nhiên về hình ảnh đó. Ví dụ: người dùng khiếm thị có thể hỏi: "Vạch kẻ đường dành cho người đi bộ có an toàn không?" và mô hình sẽ xử lý nguồn cấp dữ liệu video trực tiếp (hình ảnh) và câu hỏi (văn bản) để cung cấp phản hồi bằng âm thanh.
  • Tạo văn bản thành hình ảnh : Các công cụ AI tạo hình hàng đầu như DALL-E 3 của OpenAI chấp nhận các gợi ý văn bản mô tả và tạo ra hình ảnh có độ trung thực cao. Điều này đòi hỏi sự hiểu biết sâu sắc về cách các khái niệm văn bản chuyển thành các thuộc tính trực quan như kết cấu, ánh sáng và bố cục.
  • Phát hiện đối tượng từ vựng mở: Các mô hình như Ultralytics YOLO -World cho phép người dùng detect các đối tượng bằng cách sử dụng các lời nhắc văn bản tùy ý thay vì danh sách các lớp cố định. Điều này thu hẹp khoảng cách giữa các lệnh ngôn ngữ và nhận dạng hình ảnh.

Ví dụ sau đây minh họa cách sử dụng ultralytics thư viện để thực hiện phát hiện từ vựng mở, trong đó mô hình phát hiện các đối tượng dựa trên các đầu vào văn bản tùy chỉnh:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Sự khác biệt từ các thuật ngữ liên quan

Điều quan trọng là phải phân biệt "Mô hình đa phương thức" với các khái niệm liên quan trong thuật ngữ AI:

  • Học tập đa phương thức : Thuật ngữ này đề cập đến quy trình và kỹ thuật học máy được sử dụng để huấn luyện các hệ thống này. Mô hình đa phương thức là kết quả của việc học tập đa phương thức thành công.
  • Mô hình Ngôn ngữ Lớn (LLM) : Trong khi các LLM truyền thống chỉ xử lý văn bản, nhiều mô hình đang phát triển thành Mô hình Ngôn ngữ Thị giác (VLM) . Tuy nhiên, một LLM tiêu chuẩn là mô hình đơn phương thức, trong khi một mô hình đa phương thức được thiết kế rõ ràng cho nhiều loại đầu vào.
  • Mô hình nền tảng : Đây là một phạm trù rộng hơn, mô tả các mô hình quy mô lớn có thể thích ứng với nhiều tác vụ hạ nguồn. Mô hình đa phương thức thường là một loại mô hình nền tảng, nhưng không phải tất cả các mô hình nền tảng đều là đa phương thức.

Tương lai của AI đa phương thức

Lĩnh vực này đang nhanh chóng phát triển các mô hình có thể xử lý các luồng âm thanh, video và văn bản liên tục theo thời gian thực. Nghiên cứu từ các tổ chức như Google DeepMind tiếp tục mở rộng ranh giới về khả năng nhận thức của các hệ thống này. Ultralytics Trong khi các mô hình YOLO11 hàng đầu của chúng tôi đặt ra tiêu chuẩn về tốc độ và độ chính xác trong phát hiện đối tượng , chúng tôi cũng đang đổi mới với các kiến trúc như YOLO26 , giúp nâng cao hiệu quả hơn nữa cho cả ứng dụng biên và đám mây. Nhìn về tương lai, Nền tảng Ultralytics toàn diện sẽ cung cấp một môi trường thống nhất để quản lý dữ liệu, đào tạo và triển khai cho các quy trình AI ngày càng phức tạp này.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay