Glossário

GPT-4

Explora o GPT-4, a IA multimodal avançada da OpenAI, que se destaca em tarefas de texto-visual, raciocínio complexo e aplicações do mundo real, como cuidados de saúde e educação.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O GPT-4 (Generative Pre-trained Transformer 4) é um grande modelo multimodal criado pela OpenAI, que representa um avanço significativo no campo da Inteligência Artificial (IA). Como sucessor do GPT-3, o GPT-4 demonstra capacidades melhoradas na compreensão e geração de texto semelhante ao humano, resolvendo problemas complexos com raciocínio melhorado e exibindo maior criatividade. Uma distinção fundamental dos seus antecessores é que o GPT-4 é um modelo multimodal, o que significa que pode aceitar entradas de texto e imagem, permitindo interações mais ricas e uma gama mais vasta de aplicações na aprendizagem automática (ML).

Conceitos fundamentais e arquitetura

O GPT-4, tal como outros modelos da série GPT, é construído sobre a arquitetura Transformer. Esta arquitetura, introduzida no influente artigo "Attention Is All You Need", baseia-se fortemente em mecanismos de auto-atenção. Estes mecanismos permitem que o modelo pondere a importância de diferentes palavras (ou tokens) dentro de uma sequência de entrada, permitindo-lhe captar eficazmente dependências de longo alcance e contexto no texto. O GPT-4 foi treinado utilizando grandes quantidades de dados retirados da Internet e de fontes de dados licenciadas, abrangendo tanto texto como imagens. Embora os detalhes específicos sobre o tamanho da sua arquitetura (número de parâmetros) e o conjunto exato de dados de treino permaneçam confidenciais, o Relatório Técnico do GPT-4 documenta o seu desempenho significativamente melhorado em vários parâmetros de referência profissionais e académicos em comparação com modelos anteriores. Funciona como um poderoso Modelo de Linguagem Grande (LLM), capaz de realizar diversas tarefas relacionadas com a linguagem e a visão.

Principais caraterísticas e melhorias

O GPT-4 introduz várias melhorias notáveis em relação a modelos como o GPT-3:

Aplicações no mundo real

O GPT-4 alimenta um conjunto diversificado de aplicações em várias indústrias, frequentemente acedidas através de uma API:

GPT-4 em contexto

Embora o GPT-4 seja um modelo de base versátil que se destaca na compreensão da linguagem, na geração de texto e na interpretação básica de imagens, difere significativamente dos modelos especializados em domínios como a Visão por Computador (CV). Por exemplo, Ultralytics YOLO da Ultralytics, como o YOLOv8 ou YOLO11são especificamente concebidos utilizando a Aprendizagem Profunda (DL) para Deteção de Objectos, Segmentação de Imagens e Segmentação de Instâncias precisas e de alta velocidade em imagens ou vídeos. O GPT-4 pode descrever o que está numa imagem (por exemplo, "Há um gato num tapete"), mas os modelos YOLO indicam onde os objectos estão localizados com caixas delimitadoras precisas ou máscaras ao nível do pixel, tornando-os adequados para diferentes tarefas de visão computacional.

Estes diferentes tipos de modelos podem ser altamente complementares em sistemas de IA complexos. Por exemplo, um modelo YOLO pode detetar objectos num fluxo de vídeo e o GPT-4 pode gerar descrições ou responder a perguntas sobre as interações entre esses objectos detectados. A gestão do desenvolvimento, da formação e da implementação de modelos destes sistemas combinados pode ser simplificada utilizando plataformas como o Ultralytics HUB ou ferramentas de comunidades como Hugging Face. Lê mais sobre os avanços da IA no BlogueUltralytics .

Lê tudo