Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Học Đa Phương Thức

Khám phá sức mạnh của Học đa phương thức (Multi-Modal Learning) trong AI! Khám phá cách các mô hình tích hợp các loại dữ liệu khác nhau để giải quyết vấn đề trong thế giới thực phong phú hơn.

Học đa phương thức là một phân ngành nâng cao của học máy (ML), trong đó các thuật toán được đào tạo để xử lý, hiểu và liên kết thông tin từ nhiều loại dữ liệu riêng biệt, được gọi là phương thức. Trong khi các hệ thống AI truyền thống thường tập trung vào một loại đầu vào duy nhất—chẳng hạn như văn bản để dịch ngôn ngữ hoặc pixel để nhận dạng hình ảnh —học đa phương thức mô phỏng nhận thức của con người bằng cách tích hợp các đầu vào cảm biến đa dạng như dữ liệu hình ảnh, âm thanh nói, mô tả văn bản và dữ liệu cảm biến. Phương pháp tiếp cận toàn diện này cho phép trí tuệ nhân tạo (AI) phát triển sự hiểu biết sâu sắc hơn, có nhận thức về bối cảnh về thế giới, dẫn đến các mô hình dự đoán mạnh mẽ và linh hoạt hơn.

Cơ chế tích hợp đa phương thức

Thách thức cốt lõi trong học tập đa phương thức là chuyển đổi các kiểu dữ liệu khác nhau thành một không gian toán học chung, nơi chúng có thể được so sánh và kết hợp. Quá trình này thường bao gồm ba giai đoạn chính: mã hóa, căn chỉnh và hợp nhất.

  1. Mã hóa: Mạng nơ-ron chuyên biệt xử lý từng phương thức một cách độc lập. Ví dụ, mạng nơ-ron tích chập (CNN) hoặc Vision Transformers (ViTs) trích xuất các đặc điểm từ hình ảnh, trong khi Mạng nơ-ron hồi quy (RNNs) hoặc Transformers xử lý văn bản.
  2. Căn chỉnh: Mô hình học cách ánh xạ các đặc điểm đa dạng này thành các vectơ đa chiều dùng chung được gọi là nhúng (embedding) . Trong không gian chung này, vectơ cho từ "chó" và vectơ cho hình ảnh một con chó được đặt gần nhau. Các kỹ thuật như học tương phản , được phổ biến bởi các bài báo như CLIP của OpenAI , là rất cần thiết ở đây.
  3. Hợp nhất: Cuối cùng, thông tin được hợp nhất để thực hiện một nhiệm vụ. Hợp nhất có thể diễn ra sớm (kết hợp dữ liệu thô), muộn (kết hợp các dự đoán cuối cùng) hoặc thông qua các phương pháp lai trung gian sử dụng cơ chế chú ý để cân nhắc tầm quan trọng của từng phương thức một cách linh hoạt.

Các Ứng dụng Thực tế

Học tập đa phương thức là động lực đằng sau nhiều đột phá AI ấn tượng nhất hiện nay, thu hẹp khoảng cách giữa các kho dữ liệu riêng biệt.

  • Trả lời Câu hỏi Trực quan (VQA): Trong Trả lời Câu hỏi Trực quan (VQA) , hệ thống phải phân tích hình ảnh và trả lời câu hỏi ngôn ngữ tự nhiên về hình ảnh đó, chẳng hạn như "Đèn giao thông màu gì?". Điều này đòi hỏi mô hình phải hiểu ngữ nghĩa của văn bản và định vị không gian các yếu tố trực quan tương ứng.
  • Điều hướng Tự động: Xe tự lái phụ thuộc rất nhiều vào sự kết hợp cảm biến , kết hợp dữ liệu từ đám mây điểm LiDAR, nguồn cấp dữ liệu video từ camera và radar để điều hướng an toàn. Đầu vào đa phương thức này đảm bảo rằng nếu một cảm biến bị hỏng (ví dụ: camera bị chói nắng), các cảm biến khác vẫn có thể duy trì an toàn.
  • Chẩn đoán Chăm sóc Sức khỏe: AI trong chăm sóc sức khỏe sử dụng phương pháp học đa phương thức bằng cách phân tích hình ảnh y tế (như MRI hoặc X-quang) cùng với tiền sử bệnh nhân dạng văn bản phi cấu trúc và dữ liệu di truyền. Góc nhìn toàn diện này hỗ trợ bác sĩ đưa ra chẩn đoán chính xác hơn, một chủ đề thường được thảo luận trên các tạp chí Nature Digital Medicine .

Phát hiện đối tượng đa phương thức với Ultralytics

Trong khi các trình phát hiện đối tượng tiêu chuẩn dựa vào các lớp được xác định trước, các phương pháp đa phương thức như YOLO -World cho phép người dùng detect các đối tượng bằng cách sử dụng các gợi ý văn bản từ vựng mở. Điều này chứng minh sức mạnh của việc liên kết các khái niệm văn bản với các đặc điểm trực quan.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Phân biệt các thuật ngữ chính

Để định hướng bối cảnh AI hiện đại, cần phân biệt 'Học tập đa phương thức' với các khái niệm liên quan:

  • Mô hình Đa phương thức : "Học tập Đa phương thức" đề cập đến phương pháp luận và lĩnh vực nghiên cứu. "Mô hình Đa phương thức" (như GPT-4 hoặc Gemini) là sản phẩm cụ thể hoặc phần mềm thu được từ quá trình đào tạo đó.
  • Thị giác Máy tính (CV) : CV thường là đơn mô hình, tập trung hoàn toàn vào dữ liệu hình ảnh. Mặc dù một mô hình như Ultralytics YOLO11 là một công cụ CV tiên tiến, nhưng nó sẽ trở thành một phần của quy trình đa mô hình khi đầu ra của nó được kết hợp với dữ liệu âm thanh hoặc văn bản.
  • Mô hình Ngôn ngữ Lớn (LLM) : Các LLM truyền thống là đơn thức, chỉ được đào tạo trên văn bản. Tuy nhiên, ngành công nghiệp đang chuyển sang "Mô hình Đa thức Lớn" (LMM) có khả năng xử lý hình ảnh và văn bản gốc, một xu hướng được hỗ trợ bởi các nền tảng như PyTorchTensorFlow .

Triển vọng tương lai

Quỹ đạo của học tập đa phương thức hướng đến các hệ thống sở hữu các đặc điểm của Trí tuệ Nhân tạo Tổng quát (AGI) . Bằng cách đặt ngôn ngữ vào thực tế thị giác và vật lý một cách thành công, các mô hình này đang vượt ra khỏi mối tương quan thống kê để hướng đến lý luận thực sự. Nghiên cứu từ các tổ chức như MIT CSAILTrung tâm Nghiên cứu Mô hình Nền tảng Stanford tiếp tục mở rộng ranh giới về cách máy móc nhận thức và tương tác với các môi trường phức tạp, đa giác quan.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay