Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Multi-Modal Model

Explora como os modelos multimodais integram texto, imagens e áudio. Aprende sobre arquiteturas como o Ultralytics YOLO26 e implementa visão IA na Ultralytics Platform.

Um modelo multi-modal é um tipo avançado de sistema de inteligência artificial (IA) capaz de processar, interpretar e integrar informações de múltiplos tipos de dados diferentes, ou "modalidades", simultaneamente. Enquanto os sistemas unimodais tradicionais se especializam em um único domínio — como Processamento de Linguagem Natural (NLP) para texto ou Visão Computacional (CV) para imagens —, os modelos multi-modais visam imitar a percepção humana sintetizando pistas visuais, auditivas e linguísticas em conjunto. Essa convergência permite que o modelo desenvolva uma compreensão abrangente do mundo, capacitando-o a traçar correlações complexas entre uma cena visual e uma descrição falada. Essas capacidades são consideradas passos fundamentais para alcançar a Inteligência Artificial Geral (AGI).

Link to this sectionMecanismos Principais e Arquitetura#

A eficácia de um modelo multi-modal depende de sua capacidade de mapear diversos tipos de dados em um espaço semântico compartilhado. Esse processo geralmente começa com a criação de embeddings, que são representações numéricas que capturam o significado essencial dos dados de entrada. Ao treinar em conjuntos de dados massivos de exemplos pareados, como vídeos com legendas, o modelo aprende a alinhar a representação vetorial de uma imagem de "gato" com o embedding de texto para a palavra "gato".

Vários conceitos arquitetônicos fundamentais tornam essa integração possível:

  • Arquitetura Transformer: Muitos sistemas multi-modais utilizam transformers, que empregam mecanismos de atenção para ponderar dinamicamente a importância de diferentes partes da entrada. Isso permite que um modelo foque em regiões específicas da imagem que correspondem a palavras relevantes em um prompt de texto, um conceito detalhado no artigo de pesquisa seminal "Attention Is All You Need".
  • Fusão de Dados: Isso se refere à estratégia de combinar informações de diferentes fontes. A fusão de sensores pode ocorrer precocemente, mesclando dados brutos, ou tardiamente, combinando as decisões de submodelos separados. Estruturas modernas como PyTorch oferecem a flexibilidade necessária para construir esses pipelines complexos.
  • Aprendizado Contrastivo: Técnicas usadas por modelos como o CLIP da OpenAI treinam o sistema para minimizar a distância entre pares correspondentes de texto-imagem no espaço vetorial, enquanto maximizam a distância entre pares incompatíveis.

Link to this sectionAplicações no Mundo Real#

Modelos multi-modais desbloquearam capacidades que eram anteriormente impossíveis de alcançar para sistemas de modalidade única.

  • Resposta a Perguntas Visuais (VQA): Esses sistemas permitem que usuários façam perguntas em linguagem natural sobre uma imagem. Por exemplo, um usuário com deficiência visual pode enviar uma foto de uma despensa e perguntar: "Há uma lata de sopa na prateleira de cima?". O modelo usa detecção de objetos para identificar itens e NLP para entender a consulta, fornecendo uma resposta útil.
  • Veículos Autônomos: Carros autônomos funcionam como agentes multi-modais em tempo real. Eles combinam feeds visuais de câmeras, informações de profundidade de LiDAR e dados de velocidade de radar. Essa redundância garante que, se um sensor for obstruído pelo clima, outros possam manter a segurança viária.
  • Detecção de Vocabulário Aberto: Modelos como o Ultralytics YOLO-World permitem que os usuários detectem objetos usando prompts de texto arbitrários em vez de uma lista fixa de classes. Isso preenche a lacuna entre comandos linguísticos e reconhecimento visual.

Link to this sectionExemplo: Detecção de Vocabulário Aberto#

O exemplo a seguir demonstra como usar a biblioteca ultralytics para realizar detecção de vocabulário aberto, onde o modelo interpreta prompts de texto para identificar objetos em uma imagem:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this sectionDistinções de Termos Relacionados#

É útil diferenciar "Modelo Multi-modal" de conceitos relacionados no glossário de IA:

  • Aprendizado Multi-modal: Isso se refere ao processo e às técnicas de aprendizado de máquina (ML) usadas para treinar esses sistemas. O modelo multi-modal é o artefato resultante ou produto de software desse processo de aprendizado.
  • Grandes Modelos de Linguagem (LLMs): Os LLMs tradicionais processam apenas texto. Embora muitos estejam evoluindo para Modelos de Visão-Linguagem (VLMs), um LLM padrão é unimodal.
  • Modelos de Fundação: Esta é uma categoria mais ampla que descreve modelos de grande escala adaptáveis a muitas tarefas a jusante. Embora um modelo multi-modal seja frequentemente um modelo de fundação, nem todos os modelos de fundação lidam com múltiplas modalidades.

Link to this sectionO Futuro da IA Multi-modal#

O campo está avançando rapidamente para sistemas que podem processar fluxos contínuos de áudio, vídeo e texto em tempo real. Pesquisas de organizações como o Google DeepMind continuam a expandir as fronteiras da percepção de máquina. Na Ultralytics, apoiamos este ecossistema com backbones de visão de alto desempenho como o YOLO26. Lançado em 2026, o YOLO26 oferece velocidade e precisão superiores para tarefas como segmentação de instâncias, servindo como um componente visual eficiente em pipelines multi-modais maiores. Os desenvolvedores podem gerenciar os dados, treinamento e implantação desses fluxos de trabalho complexos usando a unificada Plataforma Ultralytics.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática