Glossário

Modelo multimodal

Descobre como os modelos de IA multimodal integram texto, imagens e muito mais para criar sistemas robustos e versáteis para aplicações do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Os modelos multimodais representam um avanço significativo na inteligência artificial (IA), processando e integrando informações de vários tipos de fontes de dados, conhecidas como modalidades. Ao contrário dos modelos tradicionais, que podem centrar-se apenas em imagens ou texto, os sistemas multimodais combinam entradas como texto, imagens, áudio, vídeo e dados de sensores para obter uma compreensão mais holística e humana de cenários complexos. Esta integração permite-lhes captar relações e contextos intrincados que os modelos de modalidade única podem não captar, conduzindo a aplicações de IA mais robustas e versáteis, exploradas em mais pormenor em recursos como o Ultralytics Blog.

Definição

Um modelo multimodal é um sistema de IA concebido e treinado para processar, compreender e relacionar simultaneamente informações de duas ou mais modalidades de dados distintas. As modalidades comuns incluem visual (imagens, vídeo), auditiva (fala, sons), textual(processamento de linguagem natural - PNL) e outros dados de sensores (como LiDAR ou leituras de temperatura). A ideia central é a fusão de informações - combinar os pontos fortes de diferentes tipos de dados para obter uma compreensão mais profunda. Por exemplo, a compreensão total de um vídeo implica o processamento dos fotogramas visuais, do diálogo falado (áudio) e, potencialmente, das legendas de texto. Ao aprender as correlações e dependências entre estas modalidades durante o processo de formação de aprendizagem automática (ML), utilizando frequentemente técnicas de aprendizagem profunda (DL), estes modelos desenvolvem uma compreensão mais rica e matizada do que é possível analisando cada modalidade isoladamente.

Relevância e aplicações

A importância dos modelos multimodais está a crescer rapidamente porque a informação do mundo real é inerentemente multifacetada. Os seres humanos percepcionam naturalmente o mundo utilizando múltiplos sentidos; dotar a IA de capacidades semelhantes permite aplicações mais sofisticadas e sensíveis ao contexto. Estes modelos são cruciais nos casos em que a compreensão depende da integração de diversos fluxos de dados, o que conduz a uma maior precisão em tarefas complexas.

Eis alguns exemplos concretos da sua aplicação:

Conceitos-chave e distinções

A compreensão dos modelos multimodais implica a familiarização com conceitos relacionados:

  • Aprendizagem multimodal: Este é o subcampo do ML focado no desenvolvimento dos algoritmos e técnicas utilizados para treinar modelos multimodais. Aborda desafios como o alinhamento de dados e estratégias de fusão, frequentemente discutidos em artigos académicos.
  • Modelos de fundações: Muitos modelos de base modernos, como o GPT-4, são inerentemente multimodais, capazes de processar texto e imagens. Estes grandes modelos servem como uma base que pode ser ajustada para tarefas específicas.
  • Modelos de linguagem de grande dimensão (LLMs): Embora relacionados, os LLM centram-se tradicionalmente no processamento de texto. Os modelos multimodais são mais amplos, explicitamente concebidos para tratar e integrar informações de diferentes tipos de dados para além da linguagem. Alguns LLM avançados, no entanto, desenvolveram capacidades multimodais.
  • Modelos de visão especializados: Os modelos multimodais diferem dos modelos especializados de visão computacional (CV), como Ultralytics YOLO. Enquanto um modelo multimodal como o GPT-4 pode descrever uma imagem ("Há um gato sentado num tapete"), um modelo YOLO destaca-se na deteção de objectos ou na segmentação de instâncias, localizando com precisão o gato com uma caixa delimitadora ou uma máscara de píxeis. Estes modelos podem ser complementares; YOLO identifica onde estão os objectos, enquanto um modelo multimodal pode interpretar a cena ou responder a perguntas sobre a mesma. Vê as comparações entre diferentes modelos YOLO .
  • Arquitetura Transformadora: A arquitetura transformadora, introduzida em "Attention Is All You Need", é fundamental para muitos modelos multimodais bem sucedidos, permitindo o processamento e integração eficazes de diferentes sequências de dados através de mecanismos de atenção.

O desenvolvimento e a implementação destes modelos envolvem frequentemente estruturas como PyTorch e TensorFlowe plataformas como o Ultralytics HUB podem ajudar a gerir conjuntos de dados e fluxos de trabalho de treino de modelos, embora o HUB se concentre atualmente mais em tarefas específicas da visão. A capacidade de fazer a ponte entre diferentes tipos de dados faz dos modelos multimodais um passo em direção a uma IA mais abrangente, contribuindo potencialmente para a futura Inteligência Artificial Geral (AGI).

Lê tudo