Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

GPT (Generative Pre-trained Transformer)

Descubra o poder dos modelos GPT: IA avançada baseada em transformadores para geração de texto, tarefas de PNL, chatbots, codificação e muito mais. Aprenda os principais recursos agora!

GPT (Generative Pre-trained Transformer) refere-se a uma família de modelos avançados de modelos avançados de Inteligência Artificial (IA) capazes de compreender e gerar texto semelhante ao humano. Desenvolvidos pela OpenAI, estes modelos são um tipo específico de modelo de linguagem grande (LLM) que revolucionou o domínio do processamento de linguagem natural (PNL). O acrónimo decompõe as principais caraterísticas do modelo: "Generativo" indica a sua capacidade de criar novos conteúdos conteúdo, "Pré-treinado" refere-se à fase inicial de aprendizagem em conjuntos de dados maciços e "Transformador" denota a arquitetura subjacente arquitetura de rede neural subjacente que torna possível este processamento sofisticado.

Arquitetura e funcionalidade principais

A espinha dorsal de um modelo GPT é a arquitetura arquitetura Transformer, introduzida no seminal trabalho de investigação seminal Attention Is All You Need. Ao contrário das Redes Neurais Recorrentes Recorrentes (RNNs) anteriores que processavam dados sequencialmente, os Transformers utilizam um mecanismo de atenção para processar seqüências inteiras de dados simultaneamente. Isto permite que o modelo pondere a importância de diferentes palavras numa frase, independentemente da distância entre elas. independentemente da sua distância entre si, capturando efetivamente o contexto e as nuances.

O processo de formação envolve duas fases críticas:

  1. Pré-treinamento: O modelo envolve-se em aprendizagem não supervisionada num vasto corpus de dados de texto da Internet. Durante esta fase, aprende gramática, factos sobre o mundo e capacidades de raciocínio prever a palavra seguinte numa frase.
  2. Afinação: Para tornar o modelo útil para tarefas específicas, ele é submetido a afinação com recurso a aprendizagem supervisionada e Aprendizagem por reforço a partir de feedback humano (RLHF). Isto alinha os resultados do modelo com a intenção humana, garantindo que responde às perguntas de forma segura e exacta.

Aplicações no Mundo Real

Os modelos GPT passaram dos laboratórios de investigação para ferramentas comerciais amplamente utilizadas. Dois exemplos proeminentes incluem:

  • Assistentes de codificação inteligentes: Ferramentas como o GitHub Copilot utilizam modelos baseados em GPT para auxiliar desenvolvedores de software software. Ao entender o contexto e os comentários do código, esses assistentes podem gerar funções inteiras, depurar erros e sugerir optimizações, acelerando significativamente o ciclo de vida do desenvolvimento de software.
  • IA de conversação e geração de conteúdos: Aplicações como ChatGPT tiram partido destes modelos para alimentar sofisticados chatbots e assistentes virtuais. Para além de simples consultas, eles podem redigir e-mails, resumir documentos longos, criar textos de marketing e até facilitar cenários complexos de complexos para fins educativos.

GPT em contexto: Visão computacional e IA multimodal

Embora a GPT seja centrada no texto, os sistemas modernos de IA combinam-na frequentemente com Visão por Computador (CV). Por exemplo, um modelo de visão pode "ver" uma imagem, e um modelo de GPT pode então "falar" sobre ela. É importante distinguir entre os papéis destes modelos.

O exemplo seguinte demonstra um fluxo de trabalho em que YOLO11 detecta objetos para criar um prompt estruturado para um modelo GPT.

from ultralytics import YOLO

# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to "see" the scene
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to construct a context-aware prompt
detected_objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Write a creative short story involving these items: {', '.join(detected_objects)}"

# This prompt can now be sent to a GPT API for generation
print(f"Generated Prompt: {prompt}")

Desafios e perspectivas futuras

Apesar das suas capacidades, os modelos GPT enfrentam desafios como alucinações, em que o modelo gera informações confiantes mas factualmente incorrectas. Existem também preocupações relativamente à ética da IA e aos preconceitos inerentes aos dados de treino.

O futuro está na aprendizagem multimodal, onde modelos como o GPT-4 podem processar texto, imagens e áudio simultaneamente. Organizações como o Stanford Institute for Human-Centered AI (HAI) estão a investigar ativamente formas de para tornar estes modelos de base mais robustos, interpretáveis e alinhados com os valores humanos. A interação eficaz com estes modelos em evolução também deu origem a competência da engenharia de prontidão, que optimiza as entradas para produzir os melhores resultados possíveis do modelo.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora