Học Đa Phương Thức
Khám phá học tập đa phương thức trong AI. Tìm hiểu cách nó tích hợp văn bản, hình ảnh và âm thanh để tạo ra các mô hình mạnh mẽ như... Ultralytics YOLO26 và YOLO -Thế giới. Khám phá thêm ngay hôm nay!
Học đa phương thức là một phương pháp tinh vi trong trí tuệ nhân tạo (AI) nhằm huấn luyện các thuật toán để xử lý, hiểu và liên kết thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là "phương thức". Không giống như các hệ thống truyền thống chuyên về một loại đầu vào duy nhất — chẳng hạn như văn bản để dịch thuật hoặc pixel để nhận dạng hình ảnh — học đa phương thức mô phỏng nhận thức của con người bằng cách tích hợp các đầu vào cảm giác đa dạng như dữ liệu hình ảnh, âm thanh, mô tả văn bản và dữ liệu cảm biến. Cách tiếp cận toàn diện này cho phép các mô hình học máy (ML) phát triển sự hiểu biết sâu sắc hơn, có nhận thức về ngữ cảnh của thế giới, dẫn đến các dự đoán mạnh mẽ và linh hoạt hơn.
Cách thức hoạt động của học đa phương thức (Multi-Modal Learning)
Thách thức cốt lõi trong học tập đa phương thức là chuyển đổi các loại dữ liệu khác nhau vào một không gian toán học chung, nơi chúng có thể được so sánh và kết hợp. Quá trình này thường bao gồm ba giai đoạn chính: mã hóa, căn chỉnh và hợp nhất.
-
Trích xuất đặc trưng : Các mạng nơ-ron chuyên dụng xử lý từng loại dữ liệu một cách độc lập. Ví dụ, mạng nơ-ron tích chập (CNN) hoặc Vision Transformer (ViT) có thể trích xuất đặc trưng từ hình ảnh, trong khi mạng nơ-ron hồi quy (RNN) hoặc Transformer xử lý văn bản.
-
Căn chỉnh nhúng : Mô hình học cách ánh xạ các đặc trưng đa dạng này thành các vectơ đa chiều chung. Trong không gian chung này, vectơ cho từ "mèo" và vectơ cho hình ảnh một con mèo được đưa lại gần nhau. Các kỹ thuật như học tương phản , được phổ biến bởi các bài báo như CLIP của OpenAI , rất cần thiết ở đây.
-
Hợp nhất dữ liệu : Cuối cùng, thông tin được hợp nhất để thực hiện một nhiệm vụ. Việc hợp nhất có thể diễn ra sớm (kết hợp dữ liệu thô), muộn (kết hợp các dự đoán cuối cùng) hoặc thông qua các phương pháp lai trung gian sử dụng cơ chế chú ý để đánh giá tầm quan trọng của từng phương thức một cách linh hoạt.
Các Ứng dụng Thực tế
Học tập đa phương thức là động lực đằng sau nhiều đột phá ấn tượng nhất của trí tuệ nhân tạo hiện nay, giúp thu hẹp khoảng cách giữa các kho dữ liệu riêng biệt để giải quyết các vấn đề phức tạp.
-
Trả lời câu hỏi bằng hình ảnh (Visual Question Answering - VQA) : Trong ứng dụng này, hệ thống phải phân tích một hình ảnh và trả lời một câu hỏi bằng ngôn ngữ tự nhiên về hình ảnh đó, chẳng hạn như "Đèn giao thông màu gì?". Điều này đòi hỏi mô hình phải hiểu ngữ nghĩa của văn bản và định vị không gian các yếu tố hình ảnh tương ứng bằng cách sử dụng thị giác máy tính .
-
Xe tự hành : Xe tự lái phụ thuộc rất nhiều vào sự kết hợp các cảm biến, kết hợp dữ liệu từ đám mây điểm LiDAR, nguồn cấp dữ liệu video từ camera và radar để điều hướng an toàn. Đầu vào đa phương thức này đảm bảo rằng nếu một cảm biến bị lỗi (ví dụ: camera bị chói bởi ánh nắng mặt trời), các cảm biến khác vẫn có thể duy trì an toàn đường bộ .
-
Chẩn đoán Y tế : Trí tuệ nhân tạo trong chăm sóc sức khỏe sử dụng học tập đa phương thức bằng cách phân tích hình ảnh y tế (như MRI hoặc X-quang) cùng với lịch sử bệnh án dạng văn bản không cấu trúc và dữ liệu di truyền của bệnh nhân. Cái nhìn toàn diện này giúp các bác sĩ đưa ra chẩn đoán chính xác hơn, một chủ đề thường xuyên được thảo luận trên các tạp chí Nature Digital Medicine .
-
Trí tuệ nhân tạo tạo sinh (Generative AI) : Các công cụ tạo hình ảnh từ các lời nhắc bằng văn bản, chẳng hạn như Stable Diffusion , hoàn toàn dựa vào khả năng của mô hình trong việc hiểu mối quan hệ giữa các mô tả ngôn ngữ và kết cấu hình ảnh.
Phát hiện đối tượng đa phương thức với Ultralytics
Trong khi các bộ phát hiện đối tượng tiêu chuẩn dựa trên các lớp được định nghĩa trước, các phương pháp đa phương thức như YOLO -World cho phép người dùng detect các đối tượng sử dụng các gợi ý văn bản với từ vựng mở. Điều này chứng minh sức mạnh của việc liên kết các khái niệm văn bản với các đặc điểm trực quan trong Ultralytics hệ sinh thái.
Sau đây Python Đoạn mã này minh họa cách sử dụng mô hình đã được huấn luyện trước. YOLO - Mô hình thế giới detect các đối tượng dựa trên các trường nhập văn bản tùy chỉnh.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Phân biệt các thuật ngữ chính
Để định hướng bối cảnh AI hiện đại, cần phân biệt 'Học tập đa phương thức' với các khái niệm liên quan:
-
Mô hình đa phương thức : "Học tập đa phương thức" đề cập đến phương pháp luận và lĩnh vực nghiên cứu. Một "Mô hình đa phương thức" (như GPT-4 hoặc...) Google (Gemini) là hiện vật hoặc sản phẩm phần mềm cụ thể được tạo ra từ quá trình đào tạo đó.
-
Trí tuệ nhân tạo đơn phương thức : Thị giác máy tính truyền thống thường là đơn phương thức, chỉ tập trung vào dữ liệu hình ảnh. Mặc dù một mô hình như Ultralytics YOLO26 là công cụ thị giác máy tính tiên tiến nhất để phát hiện đối tượng, nhưng nó thường chỉ hoạt động trên đầu vào hình ảnh trừ khi là một phần của quy trình đa phương thức lớn hơn.
-
Mô hình Ngôn ngữ Lớn (LLM) : Các LLM truyền thống là đơn thức, chỉ được đào tạo trên văn bản. Tuy nhiên, ngành công nghiệp đang chuyển sang "Mô hình Đa thức Lớn" (LMM) có khả năng xử lý hình ảnh và văn bản gốc, một xu hướng được hỗ trợ bởi các nền tảng như PyTorch và TensorFlow .
Triển vọng tương lai
Quỹ đạo của học tập đa phương thức hướng đến các hệ thống sở hữu các đặc điểm của Trí tuệ Nhân tạo Tổng quát (AGI) . Bằng cách đặt ngôn ngữ vào thực tế thị giác và vật lý một cách thành công, các mô hình này đang vượt ra khỏi mối tương quan thống kê để hướng đến lý luận thực sự. Nghiên cứu từ các tổ chức như MIT CSAIL và Trung tâm Nghiên cứu Mô hình Nền tảng Stanford tiếp tục mở rộng ranh giới về cách máy móc nhận thức và tương tác với các môi trường phức tạp, đa giác quan.
Tại Ultralytics Chúng tôi đang tích hợp những tiến bộ này vào Nền tảng Ultralytics của mình, cho phép người dùng quản lý dữ liệu, huấn luyện mô hình và triển khai các giải pháp tận dụng toàn bộ các phương thức có sẵn, từ tốc độ của YOLO26 đến tính linh hoạt của phát hiện từ vựng mở.