Explore o GPT-4, a IA multimodal avançada da OpenAI, que se destaca em tarefas de texto-visual, raciocínio complexo e aplicações no mundo real, como saúde e educação.
O GPT-4 (Generative Pre-trained Transformer 4) é um sofisticado modelo multimodal de grande dimensão (LMM) desenvolvido pela OpenAI que representa um marco significativo no domínio da Inteligência Artificial (IA). Como sucessor do GPT-3, amplamente utilizado, o GPT-4 expande as capacidades dos modelos de linguagem de grande porte (LLMs), aceitando aceitando não apenas texto, mas também entradas de imagens. Esta capacidade de processar e interpretar dados visuais juntamente com informações textuais permite-lhe executar tarefas complexas que fazem a ponte entre processamento de linguagem natural (PNL) (NLP) e a compreensão visual, tornando-o um poderoso modelo de base para diversas aplicações.
Construído sobre a arquitetura escalável do Transformer, o GPT-4 introduz vários avanços arquitecturais e de formação detalhados no seu relatório técnico. Estas melhorias permitem que o modelo apresente desempenho de nível humano em vários benchmarks profissionais e académicos.
A versatilidade do GPT-4 levou à sua integração em vários sectores, impulsionando a inovação em IA generativa.
É crucial fazer a distinção entre um LMM de objetivo geral como o GPT-4 e modelos especializados de modelos especializados de Visão por Computador (CV). Embora o GPT-4 possa descrever uma imagem, é computacionalmente dispendioso e não está optimizado para a localização precisa e de alta velocidade necessária em cenários de inferência em tempo real.
Em contrapartida, modelos como YOLO11 são concebidos especificamente para tarefas como a deteção de objectos e Segmentação de imagens. Um modelo YOLO fornece coordenadas exactas coordenadas exactas da caixa delimitadora e etiquetas de classe em milissegundos, o que o torna ideal para análise de vídeo ou sistemas autónomos. As iterações futuras, como o próximo YOLO26 têm como objetivo alargar ainda mais os limites da velocidade e precisão em dispositivos periféricos.
Muitas vezes, estas tecnologias funcionam melhor em conjunto: um modelo YOLO pode extrair rapidamente dados estruturados (objectos e localizações) a partir de um feed de vídeo, que é depois transmitido ao GPT-4 para gerar um resumo em linguagem natural da cena.
O exemplo seguinte demonstra como utilizar ultralytics para extrair os nomes dos objectos detectados, que podem
ser introduzidos num modelo como o GPT-4 para a geração de narrativas.
from collections import Counter
from ultralytics import YOLO
# Load the YOLO11 model for efficient object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names for text processing
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
object_counts = dict(Counter(detected_classes))
# Output structured data suitable for a GPT-4 prompt
print(f"Scene Objects for GPT Analysis: {object_counts}")
O GPT-4 difere fundamentalmente dos modelos apenas de codificador, como o BERT. O BERT ajuda as máquinas a "compreender" o texto olhando para o contexto bidireccionalmente (útil para análise de sentimentos), enquanto o GPT-4 é um modelo baseado em descodificador optimizado para geração de texto e previsão do próximo token numa sequência. Além disso, os agentes de IA modernos utilizam frequentemente o GPT-4 como um "cérebro" para decompor objectivos complexos em passos acionáveis, uma capacidade facilitada pela sua estrutura de raciocínio.