Thuật ngữ

Mô hình đa phương thức

Khám phá cách Mô hình AI đa phương thức tích hợp văn bản, hình ảnh, v.v. để tạo ra các hệ thống mạnh mẽ, linh hoạt cho các ứng dụng thực tế.

Các mô hình đa phương thức đại diện cho một bước tiến đáng kể trong trí tuệ nhân tạo (AI) bằng cách xử lý và tích hợp thông tin từ nhiều loại nguồn dữ liệu, được gọi là phương thức. Không giống như các mô hình truyền thống có thể chỉ tập trung vào hình ảnh hoặc văn bản, các hệ thống đa phương thức kết hợp các đầu vào như văn bản, hình ảnh, âm thanh, video và dữ liệu cảm biến để đạt được sự hiểu biết toàn diện hơn và giống con người hơn về các tình huống phức tạp. Sự tích hợp này cho phép chúng nắm bắt các mối quan hệ và bối cảnh phức tạp mà các mô hình đơn phương thức có thể bỏ lỡ, dẫn đến các ứng dụng AI mạnh mẽ và linh hoạt hơn, được khám phá thêm trong các tài nguyên như Blog Ultralytics .

Sự định nghĩa

Mô hình đa phương thức là hệ thống AI được thiết kế và đào tạo để xử lý, hiểu và liên hệ thông tin đồng thời từ hai hoặc nhiều phương thức dữ liệu riêng biệt. Các phương thức phổ biến bao gồm hình ảnh (hình ảnh, video) , thính giác (lời nói, âm thanh), văn bản ( xử lý ngôn ngữ tự nhiên - NLP ) và dữ liệu cảm biến khác (như LiDAR hoặc dữ liệu nhiệt độ). Ý tưởng cốt lõi là hợp nhất thông tin - kết hợp các điểm mạnh của các loại dữ liệu khác nhau để đạt được sự hiểu biết sâu sắc hơn. Ví dụ, hiểu đầy đủ một video liên quan đến việc xử lý các khung hình trực quan, hội thoại được nói (âm thanh) và có khả năng là chú thích văn bản hoặc phụ đề. Bằng cách tìm hiểu các mối tương quan và sự phụ thuộc giữa các phương thức này trong quá trình đào tạo máy học (ML) , thường sử dụng các kỹ thuật học sâu (DL) , các mô hình này phát triển sự hiểu biết phong phú hơn, sắc thái hơn so với khả năng phân tích từng phương thức riêng lẻ.

Sự liên quan và ứng dụng

Tầm quan trọng của Mô hình đa phương thức đang tăng nhanh chóng vì thông tin trong thế giới thực vốn có nhiều mặt. Con người tự nhiên cảm nhận thế giới bằng nhiều giác quan; việc trang bị cho AI những khả năng tương tự cho phép các ứng dụng tinh vi hơn và nhận thức được ngữ cảnh. Các mô hình này rất quan trọng khi sự hiểu biết phụ thuộc vào việc tích hợp các luồng dữ liệu đa dạng, dẫn đến độ chính xác được cải thiện trong các tác vụ phức tạp.

Sau đây là một số ví dụ cụ thể về ứng dụng của chúng:

Mô hình ngôn ngữ thị giác (VLM) để hiểu hình ảnh : Các mô hình như PaliGemma 2 của Google , Florence-2 của Microsoft và CLIP của OpenAI kết hợp dữ liệu hình ảnh và văn bản. Chúng có thể thực hiện các tác vụ như chú thích hình ảnh (tạo mô tả văn bản cho hình ảnh) hoặc Trả lời câu hỏi trực quan (VQA) (trả lời các câu hỏi ngôn ngữ tự nhiên dựa trên nội dung của hình ảnh).
Hệ thống lái xe tự động : Các công ty như Waymo phát triển các phương tiện dựa nhiều vào đầu vào đa phương thức. Chúng kết hợp dữ liệu từ camera (hình ảnh), LiDAR (độ sâu và hình dạng), radar (khoảng cách và vận tốc) và đôi khi là cảm biến âm thanh để nhận biết môi trường, dự đoán chuyển động của vật thể và điều hướng an toàn. Điều này đòi hỏi phải xử lý các luồng dữ liệu đa dạng để suy luận theo thời gian thực .
Phân tích tình cảm nâng cao : Phân tích tình cảm có thể chính xác hơn bằng cách kết hợp văn bản với âm thanh (giọng nói) và tín hiệu thị giác (biểu cảm khuôn mặt). Nghiên cứu khám phá phân tích tình cảm đa phương thức cho các ứng dụng trong phân tích phản hồi của khách hàng hoặc tương tác giữa người và máy tính.
Phân tích hình ảnh y tế : Kết hợp quét y tế (như chụp X-quang hoặc MRI) với hồ sơ sức khỏe điện tử (văn bản) có thể đưa ra chẩn đoán chính xác hơn. Đọc thêm về những tiến bộ của AI và X quang .

Các khái niệm chính và sự khác biệt

Để hiểu về Mô hình đa phương thức cần phải quen thuộc với các khái niệm liên quan:

Học tập đa phương thức : Đây là lĩnh vực con của ML tập trung vào việc phát triển các thuật toán và kỹ thuật được sử dụng để đào tạo các Mô hình đa phương thức. Nó giải quyết các thách thức như căn chỉnh dữ liệu và chiến lược hợp nhất, thường được thảo luận trong các bài báo học thuật .
Mô hình nền tảng : Nhiều mô hình nền tảng hiện đại, chẳng hạn như GPT-4 , về bản chất là đa phương thức, có khả năng xử lý cả văn bản và hình ảnh. Các mô hình lớn này đóng vai trò là cơ sở có thể được tinh chỉnh cho các tác vụ cụ thể.
Mô hình ngôn ngữ lớn (LLM) : Mặc dù có liên quan, LLM thường tập trung vào xử lý văn bản. Các mô hình đa phương thức rộng hơn, được thiết kế rõ ràng để xử lý và tích hợp thông tin từ các loại dữ liệu khác nhau ngoài ngôn ngữ. Tuy nhiên, một số LLM tiên tiến đã phát triển các khả năng đa phương thức.
Các mô hình thị giác chuyên biệt: Các mô hình đa phương thức khác với các mô hình thị giác máy tính (CV) chuyên biệt như Ultralytics YOLO . Trong khi một mô hình đa phương thức như GPT-4 có thể mô tả một hình ảnh ("Có một con mèo đang ngồi trên một tấm thảm"), một YOLO mô hình này vượt trội trong việc phát hiện đối tượng hoặc phân đoạn trường hợp , định vị chính xác con mèo bằng hộp giới hạn hoặc mặt nạ pixel. Các mô hình này có thể bổ sung cho nhau; YOLO xác định vị trí của các đối tượng, trong khi mô hình đa phương thức có thể diễn giải cảnh hoặc trả lời các câu hỏi về cảnh đó. Kiểm tra so sánh giữa các mô hình YOLO khác nhau .
Kiến trúc biến áp : Kiến trúc biến áp, được giới thiệu trong "Attention Is All You Need" , là nền tảng cho nhiều mô hình đa phương thức thành công, cho phép xử lý và tích hợp hiệu quả các chuỗi dữ liệu khác nhau thông qua các cơ chế chú ý .

Việc phát triển và triển khai các mô hình này thường liên quan đến các khuôn khổ như PyTorch và TensorFlow , và các nền tảng như Ultralytics HUB có thể giúp quản lý các tập dữ liệu và quy trình đào tạo mô hình , mặc dù HUB hiện tập trung nhiều hơn vào các tác vụ cụ thể về tầm nhìn. Khả năng kết nối các loại dữ liệu khác nhau giúp các mô hình đa phương thức trở thành một bước tiến tới AI toàn diện hơn, có khả năng đóng góp vào Trí tuệ nhân tạo tổng quát (AGI) trong tương lai.

Mô hình đa phương thức

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Sự định nghĩa

Sự liên quan và ứng dụng

Các khái niệm chính và sự khác biệt

Đọc thêm blog

Tham gia Ultralytics cộng đồng