Thuật ngữ

AI đa phương thức

Khám phá AI đa phương thức, lĩnh vực mà các hệ thống xử lý và hiểu dữ liệu đa dạng như văn bản, hình ảnh và âm thanh. Tìm hiểu cách thức hoạt động và khám phá các ứng dụng chính.

Trí tuệ nhân tạo đa phương thức (AI) là một lĩnh vực trí tuệ nhân tạo (AI), trong đó các hệ thống được thiết kế để xử lý, hiểu và lập luận bằng thông tin từ nhiều loại dữ liệu, được gọi là phương thức. Không giống như các hệ thống AI truyền thống thường tập trung vào một loại dữ liệu duy nhất (ví dụ: chỉ văn bản hoặc chỉ hình ảnh), AI đa phương thức tích hợp và diễn giải các nguồn dữ liệu đa dạng như văn bản, hình ảnh, âm thanh, video và thậm chí cả dữ liệu cảm biến. Phương pháp này cho phép AI có được sự hiểu biết toàn diện hơn và giống con người hơn về thế giới, tương tự như cách con người sử dụng thị giác, thính giác và ngôn ngữ để nhận thức môi trường xung quanh. Thách thức cốt lõi trong lĩnh vực này không chỉ là xử lý từng phương thức mà còn là kết hợp chúng một cách hiệu quả để tạo ra một cách diễn giải thống nhất và giàu ngữ cảnh.

AI đa phương thức hoạt động như thế nào

Việc phát triển một hệ thống AI đa phương thức bao gồm một số bước chính. Đầu tiên, mô hình phải tạo ra một biểu diễn số có ý nghĩa cho từng loại dữ liệu, một quá trình thường liên quan đến việc tạo các nhúng . Ví dụ: văn bản đầu vào được xử lý bởi mô hình ngôn ngữ, và hình ảnh được xử lý bởi mô hình thị giác máy tính (CV) . Bước quan trọng tiếp theo là hợp nhất, trong đó các biểu diễn khác nhau này được kết hợp. Các kỹ thuật cho việc này có thể bao gồm từ ghép nối đơn giản đến các phương pháp phức tạp hơn liên quan đến cơ chế chú ý , cho phép mô hình cân nhắc tầm quan trọng của các phương thức khác nhau cho một nhiệm vụ nhất định.

Kiến trúc Transformer , được giới thiệu trong bài báo có sức ảnh hưởng "Attention Is All You Need" (Sự chú ý là tất cả những gì bạn cần), là nền tảng cho sự thành công của các hệ thống đa phương thức hiện đại. Khả năng xử lý dữ liệu tuần tự và nắm bắt các mối quan hệ phụ thuộc tầm xa của kiến trúc này giúp nó cực kỳ hiệu quả trong việc tích hợp thông tin từ nhiều nguồn khác nhau. Các nền tảng hàng đầu như PyTorchTensorFlow cung cấp các công cụ cần thiết để xây dựng và huấn luyện các mô hình phức tạp này.

Ứng dụng trong thế giới thực

AI đa phương thức đang thúc đẩy sự ra đời của thế hệ ứng dụng thông minh mới linh hoạt và trực quan hơn.

  1. Trả lời Câu hỏi Trực quan (VQA) : Trong hệ thống VQA, người dùng có thể trình bày hình ảnh và đặt câu hỏi về hình ảnh đó bằng ngôn ngữ tự nhiên, chẳng hạn như "Chiếc xe trên đường màu gì?". AI phải hiểu văn bản, phân tích thông tin trực quan và đưa ra câu trả lời phù hợp. Công nghệ này được sử dụng để tạo ra các công cụ hỗ trợ tiếp cận cho người khiếm thị và nâng cao nền tảng học tập tương tác .

  2. Tạo văn bản thành hình ảnh : Các nền tảng như DALL-E 3 của OpenAIStable Diffusion của Stability AI là những ví dụ nổi bật về AI đa phương thức. Chúng lấy mô tả văn bản (một lời nhắc) và tạo ra hình ảnh tương ứng. Điều này đòi hỏi mô hình phải hiểu sâu sắc cách các khái niệm ngôn ngữ chuyển thành các thuộc tính trực quan, cho phép tạo ra các hình thức nghệ thuật kỹ thuật số và sáng tạo nội dung mới.

AI đa phương thức so với các khái niệm liên quan

Điều quan trọng là phải phân biệt AI đa phương thức với các thuật ngữ tương tự:

  • Mô hình đa phương thức : AI đa phương thức là lĩnh vực nghiên cứu rộng, trong khi mô hình đa phương thức là hệ thống hoặc kiến trúc cụ thể (ví dụ: GPT-4 có tầm nhìn) được tạo ra bằng cách sử dụng các nguyên tắc của AI đa phương thức.
  • Học tập đa phương thức : Đây là phân ngành của học máy (ML) tập trung vào các thuật toán và phương pháp được sử dụng để huấn luyện các mô hình đa phương thức. Đây là chuyên ngành kỹ thuật giúp AI đa phương thức trở nên khả thi.
  • Mô hình Ngôn ngữ Lớn (LLM) : Trong khi các LLM truyền thống chỉ đơn phương thức (chỉ văn bản), nhiều mô hình nền tảng hiện đại hiện nay đa phương thức, tích hợp văn bản với các loại dữ liệu khác. Các hệ thống tiên tiến này thường được gọi là Mô hình Ngôn ngữ Thị giác (VLM) .
  • Mô hình Thị giác Chuyên biệt: Một hệ thống đa phương thức có thể mô tả một hình ảnh ("Một chú chó đang bắt đĩa bay"), nhưng một mô hình chuyên biệt như Ultralytics YOLO lại vượt trội trong các tác vụ chính xác, tốc độ cao như phát hiện vật thể , định vị chú chó và đĩa bay với các khung giới hạn chính xác. Các mô hình này bổ sung cho nhau; YOLO cung cấp thông tin "cái gì" và "ở đâu", trong khi AI đa phương thức có thể bổ sung thông tin "như thế nào" và "tại sao". Bạn có thể khám phá sự so sánh giữa các mô hình phát hiện vật thể khác nhau để hiểu rõ điểm mạnh cụ thể của chúng.

Việc phát triển và triển khai cả mô hình chuyên biệt và đa phương thức có thể được quản lý bằng các nền tảng như Ultralytics HUB , giúp hợp lý hóa quy trình làm việc của ML. Sự tiến bộ trong AI đa phương thức là một bước tiến quan trọng hướng tới việc tạo ra AI có năng lực và khả năng thích ứng cao hơn, có khả năng mở đường cho Trí tuệ Nhân tạo Tổng quát (AGI) đang được các tổ chức như Google DeepMind nghiên cứu.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard