Esplora GPT-4, l'IA multimodale avanzata di OpenAI, che eccelle in attività testo-visuali, ragionamento complesso e applicazioni nel mondo reale come l'assistenza sanitaria e l'istruzione.
Il GPT-4 (Generative Pre-trained Transformer 4) è un sofisticato modello multimodale di grandi dimensioni (LMM) sviluppato da OpenAI. OpenAI che rappresenta una pietra miliare nel campo dell'intelligenza artificiale ( AI ). Intelligenza Artificiale (IA). Come GPT-3, GPT-4 espande le capacità del modello standard. capacità dei modelli linguistici standard modelli linguistici di grandi dimensioni (LLM) accettando non solo non solo testo, ma anche immagini. Questa capacità di elaborare e interpretare i dati visivi insieme alle informazioni testuali permette di eseguire compiti complessi che colmano il divario tra elaborazione del linguaggio naturale (NLP) e la comprensione visiva, rendendolo un potente modello di base per diverse applicazioni.
Costruito sull'architettura scalabile Transformer, GPT-4 introduce diversi progressi architettonici e di formazione, descritti in dettaglio nella relazione tecnica. relazione tecnica. Questi miglioramenti consentono al modello di mostrare prestazioni di livello umano su vari benchmark professionali e accademici.
La versatilità di GPT-4 ha portato alla sua integrazione in numerosi settori, guidando l'innovazione nell'IA generativa. IA generativa.
È fondamentale distinguere tra un LMM di uso generale come il GPT-4 e modelli specializzati di modelli di visione artificiale (CV). Sebbene GPT-4 sia in grado di descrivere un'immagine, è computazionalmente costoso e non è ottimizzato per la localizzazione precisa e ad alta velocità richiesta negli scenari di inferenza in tempo reale. in scenari di inferenza in tempo reale.
Al contrario, modelli come YOLO11 sono costruiti appositamente per compiti come il rilevamento di oggetti e la segmentazione delle immagini. Un modello YOLO fornisce le coordinate esatte coordinate esatte del rettangolo di selezione e le etichette di classe in millisecondi, il che lo rende ideale per l'analisi video o i sistemi autonomi. Le future iterazioni, come l'imminente YOLO26 mirano a spingere ulteriormente i limiti di velocità e di precisione sui dispositivi edge.
Spesso queste tecnologie funzionano meglio in tandem: un modello YOLO può estrarre rapidamente dati strutturati (oggetti e luoghi) da un feed video, che vengono poi passati al GPT-4 per generare una sintesi in linguaggio naturale della scena. oggetti e luoghi) da un feed video, che viene poi passato al GPT-4 per generare un riassunto in linguaggio naturale della scena.
L'esempio seguente mostra come utilizzare ultralytics per estrarre i nomi degli oggetti rilevati, che potrebbero
essere inseriti in un modello come il GPT-4 per la generazione della narrativa.
from collections import Counter
from ultralytics import YOLO
# Load the YOLO11 model for efficient object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names for text processing
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
object_counts = dict(Counter(detected_classes))
# Output structured data suitable for a GPT-4 prompt
print(f"Scene Objects for GPT Analysis: {object_counts}")
Il GPT-4 si differenzia fondamentalmente dai modelli con solo encoder, come il BERT. BERT aiuta le macchine a "capire" il testo osservando il contesto in modo bidirezionale (utile per la sentiment analysis), mentre GPT-4 è un modello di decodifica modello basato sul decodificatore, ottimizzato per generazione di testo e per la previsione del token successivo in una sequenza. sequenza. Inoltre, i moderni agenti di intelligenza artificiale utilizzano spesso GPT-4 GPT-4 come "cervello" per scomporre obiettivi complessi in passi attuabili, una capacità facilitata dalla sua avanzata struttura di ragionamento. struttura di ragionamento.