Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Multi-Modal Learning

Khám phá multi-modal learning trong AI. Tìm hiểu cách nó tích hợp văn bản, hình ảnh và âm thanh cho các model mạnh mẽ như Ultralytics YOLO26 và YOLO-World. Tìm hiểu thêm ngay hôm nay!

Học máy đa phương thức là một phương pháp tinh vi trong trí tuệ nhân tạo (AI), giúp đào tạo các thuật toán để xử lý, hiểu và tương quan thông tin từ nhiều loại dữ liệu riêng biệt, hay còn gọi là "phương thức" (modalities). Khác với các hệ thống truyền thống chỉ chuyên về một loại đầu vào duy nhất—như văn bản để dịch thuật hoặc pixel để nhận diện hình ảnh—học máy đa phương thức mô phỏng nhận thức của con người bằng cách tích hợp các đầu vào cảm giác đa dạng như dữ liệu hình ảnh, âm thanh nói, mô tả văn bản và số liệu cảm biến. Cách tiếp cận toàn diện này cho phép các mô hình học máy (ML) phát triển sự hiểu biết sâu sắc và có nhận thức về bối cảnh của thế giới, dẫn đến các dự đoán mạnh mẽ và linh hoạt hơn.

Link to this sectionCách thức hoạt động của học máy đa phương thức#

Thách thức cốt lõi trong học máy đa phương thức là chuyển đổi các loại dữ liệu khác nhau thành một không gian toán học chung, nơi chúng có thể được so sánh và kết hợp. Quá trình này thường bao gồm ba giai đoạn chính: mã hóa (encoding), căn chỉnh (alignment) và hợp nhất (fusion).

  1. Trích xuất đặc trưng: Các mạng thần kinh chuyên biệt xử lý từng phương thức một cách độc lập. Ví dụ, các mạng thần kinh tích chập (CNNs) hoặc Vision Transformers (ViTs) có thể trích xuất đặc trưng từ hình ảnh, trong khi các mạng thần kinh tái phát (RNNs) hoặc Transformer xử lý văn bản.

  2. Căn chỉnh nhúng (Embeddings Alignment): Mô hình học cách ánh xạ các đặc trưng đa dạng này vào các vector không gian đa chiều chung. Trong không gian chung này, vector cho từ "mèo" và vector cho hình ảnh một con mèo được đặt gần nhau. Các kỹ thuật như học tương phản (contrastive learning), vốn được phổ biến bởi các nghiên cứu như CLIP của OpenAI, là những thành phần thiết yếu tại đây.

  3. Hợp nhất dữ liệu (Data Fusion): Cuối cùng, thông tin được hợp nhất để thực hiện một tác vụ. Việc hợp nhất có thể diễn ra sớm (kết hợp dữ liệu thô), muộn (kết hợp các dự đoán cuối cùng) hoặc thông qua các phương pháp lai trung gian sử dụng cơ chế chú ý (attention mechanism) để cân nhắc tầm quan trọng của từng phương thức một cách linh hoạt.

Link to this sectionCác ứng dụng trong thực tế#

Học máy đa phương thức là động lực đằng sau nhiều bước đột phá AI ấn tượng nhất hiện nay, giúp thu hẹp khoảng cách giữa các kho dữ liệu riêng biệt để giải quyết các vấn đề phức tạp.

  • Trả lời câu hỏi trực quan (VQA): Trong ứng dụng này, hệ thống phải phân tích một hình ảnh và trả lời một câu hỏi bằng ngôn ngữ tự nhiên về nó, chẳng hạn như "Đèn giao thông có màu gì?". Điều này đòi hỏi mô hình phải hiểu ngữ nghĩa của văn bản và xác định vị trí không gian của các yếu tố hình ảnh tương ứng bằng cách sử dụng thị giác máy tính (computer vision).
  • Xe tự hành: Xe tự lái dựa nhiều vào việc hợp nhất cảm biến, kết hợp dữ liệu từ đám mây điểm LiDAR, luồng video từ camera và radar để điều hướng an toàn. Đầu vào đa phương thức này đảm bảo rằng nếu một cảm biến bị lỗi (ví dụ: camera bị lóa nắng), các cảm biến khác vẫn có thể duy trì an toàn đường bộ.
  • Chẩn đoán chăm sóc sức khỏe: AI trong chăm sóc sức khỏe sử dụng học máy đa phương thức bằng cách phân tích phân tích hình ảnh y tế (như MRI hoặc X-quang) cùng với lịch sử bệnh nhân dạng văn bản phi cấu trúc và dữ liệu di truyền. Cái nhìn toàn diện này hỗ trợ các bác sĩ đưa ra chẩn đoán chính xác hơn, một chủ đề thường xuyên được thảo luận trên tạp chí Nature Digital Medicine.
  • AI tạo sinh (Generative AI): Các công cụ tạo hình ảnh từ văn bản mô tả, chẳng hạn như Stable Diffusion, hoàn toàn dựa vào khả năng của mô hình trong việc hiểu mối quan hệ giữa các mô tả ngôn ngữ và kết cấu hình ảnh.

Link to this sectionPhát hiện đối tượng đa phương thức với Ultralytics#

Trong khi các trình phát hiện đối tượng tiêu chuẩn dựa trên các lớp được xác định trước, các phương pháp đa phương thức như YOLO-World cho phép người dùng phát hiện đối tượng bằng cách sử dụng các lệnh văn bản từ vựng mở. Điều này chứng minh sức mạnh của việc liên kết các khái niệm văn bản với các đặc trưng hình ảnh trong hệ sinh thái Ultralytics.

Đoạn mã Python sau đây cho thấy cách sử dụng mô hình YOLO-World đã được huấn luyện trước để phát hiện đối tượng dựa trên đầu vào văn bản tùy chỉnh.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionPhân biệt các thuật ngữ chính#

Để điều hướng bối cảnh AI hiện đại, việc phân biệt 'Học máy đa phương thức' với các khái niệm liên quan sẽ rất hữu ích:

  • Mô hình đa phương thức (Multi-Modal Model): "Học máy đa phương thức" đề cập đến phương pháp luận và lĩnh vực nghiên cứu. Một "Mô hình đa phương thức" (như GPT-4 hoặc Gemini của Google) là thực thể hoặc sản phẩm phần mềm cụ thể thu được từ quá trình đào tạo đó.
  • AI đơn phương thức (Unimodal AI): Thị giác máy tính truyền thống thường là đơn phương thức, chỉ tập trung vào dữ liệu hình ảnh. Mặc dù một mô hình như Ultralytics YOLO26 là một công cụ thị giác máy tính hiện đại để phát hiện đối tượng, nó thường chỉ hoạt động dựa trên các đầu vào hình ảnh đơn thuần trừ khi là một phần của đường ống đa phương thức lớn hơn.
  • Mô hình ngôn ngữ lớn (LLMs): Các LLM truyền thống là đơn phương thức, chỉ được huấn luyện trên văn bản. Tuy nhiên, ngành công nghiệp đang chuyển dịch sang các "Mô hình đa phương thức lớn" (LMMs) có khả năng xử lý hình ảnh và văn bản một cách tự nhiên, một xu hướng được hỗ trợ bởi các framework như PyTorchTensorFlow.

Link to this sectionTriển vọng tương lai#

Quỹ đạo của học máy đa phương thức hướng tới các hệ thống sở hữu các đặc điểm Trí tuệ nhân tạo tổng quát (AGI). Bằng cách kết nối thành công ngôn ngữ với thực tế hình ảnh và vật lý, các mô hình này đang vượt ra ngoài sự tương quan thống kê để tiến tới khả năng suy luận thực sự. Nghiên cứu từ các tổ chức như MIT CSAILTrung tâm Stanford về Nghiên cứu Mô hình Nền tảng (Stanford CRFM) tiếp tục mở rộng ranh giới về cách máy móc cảm nhận và tương tác với các môi trường đa cảm giác phức tạp.

Tại Ultralytics, chúng tôi đang tích hợp những tiến bộ này vào Nền tảng Ultralytics (Ultralytics Platform), cho phép người dùng quản lý dữ liệu, đào tạo mô hình và triển khai các giải pháp tận dụng toàn bộ phổ phương thức khả dụng, từ tốc độ của YOLO26 đến sự linh hoạt của tính năng phát hiện từ vựng mở.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning