Descubra a IA Multimodal, o campo onde os sistemas processam e compreendem diversos dados como texto, imagens e áudio. Saiba como funciona e explore as principais aplicações.
A IA multimodal refere-se a um ramo sofisticado da inteligência artificial (IA) que processa, interpreta e raciocina utilizando vários tipos de dados em simultâneo. Ao contrário dos sistemas unimodais tradicionais tradicionais unimodais que dependem de uma única fonte de entrada - como os modelos de linguagem de grande dimensão (LLM) ou classificadores os sistemas multimodais integram diversos fluxos de dados, como texto, imagens, áudio, vídeo e leituras de sensores. Esta abordagem imita a perceção humana, que combina naturalmente a visão, o som e a linguagem para formar uma compreensão abrangente do ambiente. compreensão global do ambiente. Ao sintetizar estas diferentes modalidades, estes sistemas atingem uma maior precisão e consciência do contexto, aproximando-se das capacidades da Inteligência Artificial Geral (AGI).
A arquitetura de um sistema multimodal envolve geralmente três fases distintas: codificação, fusão e descodificação. Primeiro, redes neuronais separadas, tais como Redes Neuronais Convolucionais (CNN) para dados visuais e Transformers para dados textuais, extraem caraterísticas de cada tipo de entrada. Estas caraterísticas são convertidas em vectores numéricos conhecidos como incorporados.
A fase crítica é a fusão, em que estas incorporações são combinadas num espaço de representação partilhado. As técnicas de fusão utilizam mecanismos de atenção para ponderar a importância das diferentes modalidades relativamente umas às outras. Por exemplo, numa tarefa de análise de vídeo, o modelo pode dar prioridade aos dados áudio quando uma personagem está a falar, mas mudar a atenção para os dados visuais durante uma sequência de ação. Estruturas como o PyTorch e TensorFlow fornecem a espinha dorsal computacional para a construção destas arquitecturas complexas.
A IA multimodal está a impulsionar a inovação em vários sectores, resolvendo problemas que exigem uma visão holística dos dados.
Embora os modelos multimodais completos sejam complexos, os seus componentes são frequentemente modelos especializados acessíveis. Por exemplo, o componente componente de visão de um pipeline multimodal utiliza frequentemente um detetor de objectos de alta velocidade. Abaixo está um exemplo usando Ultralytics YOLO11 para extrair conceitos visuais (classes) de uma uma imagem, que podem depois ser introduzidos num modelo de linguagem para raciocínio posterior.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
É útil diferenciar a IA multimodal de termos semelhantes para compreender melhor o panorama:
O campo está a evoluir rapidamente para sistemas que podem gerar e compreender perfeitamente qualquer modalidade. As instituições de investigação instituições de investigação como a Google DeepMind e a OpenAI estão a ultrapassar os limites dos modelos de base para alinhar melhor o texto e os espaços latentes.
Na Ultralytics, estamos continuamente a fazer avançar a componente de visão deste ecossistema. O próximo YOLO26 está a ser concebido para oferecer ainda mais eficiência e precisão, servindo como uma espinha dorsal visual robusta para futuras aplicações multimodais. Os utilizadores interessados em tirar partido estas capacidades podem explorar a a integração com ferramentas como a LangChain para criar os seus próprios sistemas de raciocínio complexos.