Bảng chú giải thuật ngữ

AI đa phương thức

Khám phá Trí tuệ nhân tạo đa phương thức (Multimodal AI) và cách nó tích hợp văn bản và hình ảnh để hiểu ngữ cảnh. Tìm hiểu cách sử dụng Ultralytics YOLO26 và các mô hình từ vựng mở hiện nay.

Trí tuệ nhân tạo đa phương thức (Multimodal AI) đề cập đến một nhóm hệ thống trí tuệ nhân tạo (AI) tinh vi được thiết kế để xử lý, diễn giải và tổng hợp thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là "phương thức", cùng một lúc. Không giống như các hệ thống đơn phương thức truyền thống chuyên về một nguồn đầu vào duy nhất—chẳng hạn như Xử lý ngôn ngữ tự nhiên (NLP) cho văn bản hoặc Thị giác máy tính (CV) cho hình ảnh—trí tuệ nhân tạo đa phương thức mô phỏng nhận thức của con người bằng cách tích hợp các luồng dữ liệu đa dạng. Sự tích hợp này có thể bao gồm việc kết hợp dữ liệu hình ảnh (hình ảnh, video) với dữ liệu ngôn ngữ (văn bản, âm thanh nói) và thông tin cảm giác (LiDAR, radar, nhiệt). Bằng cách tận dụng các đầu vào kết hợp này, các mô hình này đạt được sự hiểu biết sâu sắc hơn, nhận thức ngữ cảnh tốt hơn về các tình huống phức tạp trong thế giới thực, tiến gần hơn đến khả năng rộng lớn của Trí tuệ nhân tạo tổng quát (AGI) .

Hệ thống đa phương thức hoạt động như thế nào?

Điểm mạnh cốt lõi của trí tuệ nhân tạo đa phương thức nằm ở khả năng ánh xạ các loại dữ liệu khác nhau vào một không gian toán học chung, nơi chúng có thể được so sánh và kết hợp. Quá trình này thường bao gồm ba giai đoạn chính: mã hóa, căn chỉnh và hợp nhất.

Trích xuất đặc trưng : Các mạng nơ-ron chuyên dụng xử lý từng phương thức dữ liệu một cách độc lập để xác định các mẫu chính. Ví dụ, một mạng nơ-ron tích chập (CNN) có thể trích xuất các đặc trưng hình ảnh từ một bức ảnh, trong khi một Transformer xử lý chú thích đi kèm.
Căn chỉnh và nhúng : Các đặc trưng được trích xuất được chuyển đổi thành các vectơ số đa chiều. Mô hình học cách căn chỉnh các vectơ này sao cho các khái niệm có ý nghĩa tương tự (ví dụ: hình ảnh con mèo và từ văn bản "mèo") nằm gần nhau trong không gian vectơ. Điều này thường đạt được thông qua các kỹ thuật như học tương phản , một phương pháp nổi tiếng được sử dụng trong các mô hình như CLIP của OpenAI .
Kết hợp dữ liệu: Hệ thống hợp nhất dữ liệu đã được căn chỉnh bằng các kỹ thuật kết hợp tiên tiến. Các kiến trúc hiện đại sử dụng cơ chế chú ý để tự động đánh giá tầm quan trọng của một phương thức này so với phương thức khác tùy thuộc vào ngữ cảnh, cho phép mô hình tập trung vào văn bản khi hình ảnh không rõ ràng, hoặc ngược lại.

Các Ứng dụng Thực tế

Trí tuệ nhân tạo đa phương thức đã mở khóa những khả năng mà trước đây các hệ thống đơn phương thức không thể thực hiện được, thúc đẩy sự đổi mới trong nhiều ngành công nghiệp khác nhau.

Trả lời câu hỏi bằng hình ảnh (Visual Question Answering - VQA) : Trong ứng dụng này, người dùng có thể trình chiếu một hình ảnh cho trí tuệ nhân tạo (AI) và đặt các câu hỏi bằng ngôn ngữ tự nhiên về hình ảnh đó. Ví dụ, một người dùng khiếm thị có thể tải lên ảnh chụp tủ đựng thức ăn và hỏi, "Tôi còn mì ống không?". Mô hình sẽ xử lý nội dung hình ảnh và câu hỏi bằng văn bản để đưa ra câu trả lời cụ thể.
Xe tự hành : Xe tự lái phụ thuộc rất nhiều vào các dữ liệu đầu vào đa phương thức, kết hợp dữ liệu từ camera, đám mây điểm LiDAR và radar để điều hướng an toàn. Tính năng dự phòng này đảm bảo rằng nếu một cảm biến bị lỗi (ví dụ: camera bị lóa do ánh nắng mặt trời), các cảm biến khác vẫn có thể duy trì các tiêu chuẩn an toàn do Hiệp hội Kỹ sư Ô tô (SAE) quy định.
Chẩn đoán Y tế : Các hệ thống AI y tế tiên tiến phân tích hình ảnh y tế (như MRI hoặc X-quang) cùng với lịch sử bệnh án dạng văn bản không cấu trúc và dữ liệu di truyền của bệnh nhân. Cái nhìn toàn diện này hỗ trợ các bác sĩ đưa ra chẩn đoán chính xác hơn, một chủ đề thường xuyên được thảo luận trên tạp chí Nature Digital Medicine .
Trí tuệ nhân tạo tạo sinh (Generative AI) : Các công cụ tạo hình ảnh từ các lời nhắc bằng văn bản, chẳng hạn như Stable Diffusion , hoàn toàn dựa vào khả năng của mô hình trong việc hiểu mối quan hệ giữa các mô tả ngôn ngữ và kết cấu hình ảnh.

Phát hiện từ vựng mở với Ultralytics

Trong khi các bộ nhận diện đối tượng tiêu chuẩn dựa vào danh sách các danh mục được xác định trước, các phương pháp đa phương thức như YOLO -World cho phép người dùng... detect nhận diện các đối tượng bằng cách sử dụng các gợi ý văn bản với từ vựng mở. Điều này giúp thu hẹp khoảng cách giữa các mệnh lệnh ngôn ngữ và nhận diện hình ảnh trong môi trường làm việc. Ultralytics hệ sinh thái.

Ví dụ sau đây minh họa cách sử dụng ultralytics thư viện để thực hiện phát hiện từ vựng mở, trong đó mô hình phát hiện các đối tượng dựa trên các đầu vào văn bản tùy chỉnh:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Phân biệt các thuật ngữ liên quan

Để định hướng trong lĩnh vực học máy hiện đại, việc phân biệt "Trí tuệ nhân tạo đa phương thức" với các khái niệm liên quan là rất hữu ích:

Học tập đa phương thức : Điều này đề cập đến ngành học và phương pháp luận huấn luyện thuật toán trên các loại dữ liệu hỗn hợp. "Trí tuệ nhân tạo đa phương thức" thường đề cập đến ứng dụng thực tiễn hoặc chính hệ thống được tạo ra từ đó.
Mô hình ngôn ngữ quy mô lớn (LLM) : Các LLM truyền thống là đơn phương thức, chỉ được huấn luyện trên dữ liệu văn bản. Tuy nhiên, ngành công nghiệp đang chuyển sang "Mô hình đa phương thức quy mô lớn" (LMM) có thể xử lý cả hình ảnh và văn bản một cách tự nhiên, một xu hướng được hỗ trợ bởi các framework như PyTorch và TensorFlow .
Mô hình thị giác chuyên dụng: Các mô hình như Ultralytics YOLO26 tiên tiến nhất là những chuyên gia có chuyên môn cao trong các tác vụ thị giác. Trong khi một mô hình đa phương thức tổng quát có thể mô tả một cảnh một cách khái quát, các mô hình chuyên dụng lại vượt trội trong việc phát hiện đối tượng tốc độ cao, chính xác và xử lý thời gian thực trên phần cứng biên.

Triển vọng tương lai

Quá trình phát triển của trí tuệ nhân tạo đa phương thức hướng tới các hệ thống sở hữu khả năng suy luận cao hơn. Bằng cách thành công trong việc gắn ngôn ngữ với thực tế hình ảnh và vật lý, các mô hình này đang vượt ra ngoài mối tương quan thống kê để tiến tới sự hiểu biết thực sự. Nghiên cứu từ các tổ chức như Google DeepMind và Trung tâm Nghiên cứu Mô hình Nền tảng Stanford tiếp tục thúc đẩy giới hạn về cách máy móc nhận thức các môi trường phức tạp.

Tại Ultralytics Chúng tôi đang tích hợp những tiến bộ này vào Nền tảng Ultralytics , cho phép người dùng quản lý dữ liệu, huấn luyện mô hình và triển khai các giải pháp tận dụng tối đa các phương thức có sẵn, kết hợp tốc độ của YOLO26 với tính linh hoạt của đầu vào đa phương thức.

AI đa phương thức

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Hệ thống đa phương thức hoạt động như thế nào?

Các Ứng dụng Thực tế

Phát hiện từ vựng mở với Ultralytics

Phân biệt các thuật ngữ liên quan

Triển vọng tương lai

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng