Glossário

Modelo multimodal

Descobre como os modelos de IA multimodal integram texto, imagens e muito mais para criar sistemas robustos e versáteis para aplicações do mundo real.

Os modelos multimodais representam um avanço significativo na inteligência artificial (IA), processando e integrando informações de vários tipos de fontes de dados, conhecidas como modalidades. Ao contrário dos modelos tradicionais, que podem centrar-se apenas em imagens ou texto, os sistemas multimodais combinam entradas como texto, imagens, áudio, vídeo e dados de sensores para obter uma compreensão mais holística e humana de cenários complexos. Esta integração permite-lhes captar relações e contextos intrincados que os modelos de modalidade única podem não captar, conduzindo a aplicações de IA mais robustas e versáteis, exploradas em mais pormenor em recursos como o Ultralytics Blog.

Definição

Um modelo multimodal é um sistema de IA concebido e treinado para processar, compreender e relacionar simultaneamente informações de duas ou mais modalidades de dados distintas. As modalidades comuns incluem visual (imagens, vídeo), auditiva (fala, sons), textual(processamento de linguagem natural - PNL) e outros dados de sensores (como LiDAR ou leituras de temperatura). A ideia central é a fusão de informações - combinar os pontos fortes de diferentes tipos de dados para obter uma compreensão mais profunda. Por exemplo, a compreensão total de um vídeo implica o processamento dos fotogramas visuais, do diálogo falado (áudio) e, potencialmente, das legendas de texto. Ao aprender as correlações e dependências entre estas modalidades durante o processo de formação de aprendizagem automática (ML), utilizando frequentemente técnicas de aprendizagem profunda (DL), estes modelos desenvolvem uma compreensão mais rica e matizada do que é possível analisando cada modalidade isoladamente.

Relevância e aplicações

A importância dos modelos multimodais está a crescer rapidamente porque a informação do mundo real é inerentemente multifacetada. Os seres humanos percepcionam naturalmente o mundo utilizando múltiplos sentidos; dotar a IA de capacidades semelhantes permite aplicações mais sofisticadas e sensíveis ao contexto. Estes modelos são cruciais nos casos em que a compreensão depende da integração de diversos fluxos de dados, o que conduz a uma maior precisão em tarefas complexas.

Eis alguns exemplos concretos da sua aplicação:

Modelos de linguagem visual (VLMs) para a compreensão de imagens: Modelos como o PaliGemma 2 daGoogle, o Florence-2 daMicrosoft e o CLIP da OpenAI combinam dados de imagem e de texto. Podem executar tarefas como a legendagem de imagens (gerar descrições de texto para imagens) ou a resposta a perguntas visuais (VQA) (responder a perguntas de linguagem natural com base no conteúdo de uma imagem).
Sistemas de condução autónoma: Empresas como a Waymo desenvolvem veículos que dependem fortemente de informações multimodais. Fundem dados de câmaras (visuais), LiDAR (profundidade e forma), radar (distância e velocidade) e, por vezes, sensores de áudio para perceber o ambiente, prever movimentos de objectos e navegar em segurança. Isto requer o processamento de diversos fluxos de dados para inferência em tempo real.
Análise de sentimentos melhorada: A análise de sentimentos pode ser mais exacta se combinar texto com áudio (tom de voz) e pistas visuais (expressões faciais). A investigação explora a análise multimodal de sentimentos para aplicações na análise do feedback do cliente ou na interação homem-computador.
Análise de imagens médicas: A combinação de exames médicos (como radiografias ou ressonâncias magnéticas) com registos de saúde electrónicos (texto) pode levar a diagnósticos mais precisos. Lê mais sobre os avanços da IA e da radiologia.

Conceitos-chave e distinções

A compreensão dos modelos multimodais implica a familiarização com conceitos relacionados:

Aprendizagem multimodal: Este é o subcampo do ML focado no desenvolvimento dos algoritmos e técnicas utilizados para treinar modelos multimodais. Aborda desafios como o alinhamento de dados e estratégias de fusão, frequentemente discutidos em artigos académicos.
Modelos de fundações: Muitos modelos de base modernos, como o GPT-4, são inerentemente multimodais, capazes de processar texto e imagens. Estes grandes modelos servem como uma base que pode ser ajustada para tarefas específicas.
Modelos de linguagem de grande dimensão (LLMs): Embora relacionados, os LLM centram-se tradicionalmente no processamento de texto. Os modelos multimodais são mais amplos, explicitamente concebidos para tratar e integrar informações de diferentes tipos de dados para além da linguagem. Alguns LLM avançados, no entanto, desenvolveram capacidades multimodais.
Modelos de visão especializados: Os modelos multimodais diferem dos modelos especializados de visão computacional (CV), como Ultralytics YOLO. Enquanto um modelo multimodal como o GPT-4 pode descrever uma imagem ("Há um gato sentado num tapete"), um modelo YOLO destaca-se na deteção de objectos ou na segmentação de instâncias, localizando com precisão o gato com uma caixa delimitadora ou uma máscara de píxeis. Estes modelos podem ser complementares; YOLO identifica onde estão os objectos, enquanto um modelo multimodal pode interpretar a cena ou responder a perguntas sobre a mesma. Vê as comparações entre diferentes modelos YOLO .
Arquitetura Transformadora: A arquitetura transformadora, introduzida em "Attention Is All You Need", é fundamental para muitos modelos multimodais bem sucedidos, permitindo o processamento e integração eficazes de diferentes sequências de dados através de mecanismos de atenção.

O desenvolvimento e a implementação destes modelos envolvem frequentemente estruturas como PyTorch e TensorFlowe plataformas como o Ultralytics HUB podem ajudar a gerir conjuntos de dados e fluxos de trabalho de treino de modelos, embora o HUB se concentre atualmente mais em tarefas específicas da visão. A capacidade de fazer a ponte entre diferentes tipos de dados faz dos modelos multimodais um passo em direção a uma IA mais abrangente, contribuindo potencialmente para a futura Inteligência Artificial Geral (AGI).

Modelo multimodal

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Definição

Relevância e aplicações

Conceitos-chave e distinções

Lê mais blogues

Junta-te à comunidade Ultralytics

Modelo multimodal

Treina os modelos YOLO simplesmentecom Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Definição

Relevância e aplicações

Conceitos-chave e distinções

Lê mais blogues

Junta-te à comunidade Ultralytics

Treina os modelos YOLO simplesmente
com Ultralytics HUB