Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Vision AI

Un'analisi approfondita delle capacità di GPT-4o Mini di OpenAI

Esplora le caratteristiche e le applicazioni di GPT-4o Mini. L'ultimo modello di OpenAI, il più conveniente, offre funzionalità di IA avanzate al 60% in meno rispetto a GPT-3.5 Turbo.

ABAbirami Vina
6 min read
Modello di IA multimodale conveniente OpenAI GPT-4o Mini

A maggio 2024, OpenAI ha rilasciato GPT-4o e ora, a soli tre mesi di distanza, torna con un altro modello impressionante: GPT-4o Mini. Il 18 luglio 2024, OpenAI ha introdotto GPT-4o Mini. Lo definiscono il loro "modello più conveniente"! GPT-4o Mini è un modello compatto che sfrutta le funzionalità dei modelli precedenti e mira a rendere l'IA avanzata più accessibile ed economica.

GPT-4o Mini attualmente supporta interazioni testuali e visive, con aggiornamenti futuri previsti per aggiungere funzionalità di gestione di immagini, video e audio. In questo articolo, esploreremo cos'è GPT-4o Mini, le sue caratteristiche distintive, come può essere utilizzato, le differenze tra GPT-4 e GPT-4o Mini e come può essere impiegato in vari casi d'uso di computer vision. Immergiamoci subito per vedere cosa ha da offrire GPT-4o Mini!

Link to this sectionCos'è GPT-4o Mini?#

GPT-4o Mini è l'ultima aggiunta alla gamma di modelli IA di OpenAI, progettata per essere più conveniente e accessibile. Si tratta di un large language model (LLM) multimodale, il che significa che può elaborare e generare diversi tipi di dati, come testo, immagini, video e audio. Il modello sfrutta i punti di forza dei precedenti come GPT-4 e GPT-4o per offrire funzionalità potenti in un pacchetto compatto.

GPT-4o Mini è il 60% più economico di GPT-3.5 Turbo, con un costo di 15 centesimi per milione di token di input (unità di testo o dati elaborati dal modello) e 60 centesimi per milione di token di output (unità generate dal modello in risposta). Per mettere le cose in prospettiva, un milione di token equivale approssimativamente all'elaborazione di 2.500 pagine di testo. Con una finestra di contesto di 128K token e la capacità di gestire fino a 16K token di output per richiesta, GPT-4o Mini è progettato per essere efficiente e conveniente.

GPT-4o Mini è il 60% più economico di GPT-3.5 Turbo

Fig 1. GPT-4o Mini è più economico del 60% rispetto a GPT-3.5 Turbo.

Link to this sectionCaratteristiche principali di GPT-4o Mini#

GPT-4o Mini supporta una gamma di attività che lo rendono un'ottima opzione per varie applicazioni. Può essere utilizzato per eseguire diverse operazioni simultaneamente, come richiamare più API, gestire grandi quantità di dati come intere basi di codice o cronologie di conversazione e fornire risposte rapide in tempo reale nei chatbot di assistenza clienti.

Ecco alcune altre caratteristiche chiave:

  • Base di conoscenza aggiornata: Il modello contiene informazioni fino a ottobre 2023.
  • Tokenizzatore migliorato: GPT-4o Mini rende l'elaborazione di testo non in inglese più conveniente.
  • Misure di sicurezza robuste: Queste misure includono il filtraggio di contenuti dannosi e la protezione contro problemi di sicurezza come prompt injection e manipolazioni del sistema.

Link to this sectionIniziare con GPT-4o Mini#

Puoi provare a utilizzare GPT-4o Mini tramite l'interfaccia di ChatGPT. È accessibile agli utenti Free, Plus e Team, sostituendo GPT-3.5 come mostrato di seguito. Anche gli utenti Enterprise avranno presto accesso, in linea con l'obiettivo di OpenAI di fornire i vantaggi dell'IA a tutti. GPT-4o Mini è disponibile anche tramite API per gli sviluppatori che desiderano integrare le sue capacità nelle proprie applicazioni. Al momento, le capacità visive sono accessibili solo tramite API.

Opzioni dei modelli all'interno di ChatGPT

Fig 2. Opzioni del modello all'interno di ChatGPT.

Link to this sectionLa differenza tra GPT-4o e GPT-4o Mini#

Sia GPT-4o Mini che GPT-4o offrono prestazioni impressionanti in vari benchmark. Mentre GPT-4o generalmente supera GPT-4o Mini, quest'ultimo rimane una soluzione conveniente per le attività quotidiane. I benchmark includono attività di ragionamento, competenza matematica e di programmazione e ragionamento multimodale. Come mostrato nell'immagine sottostante, GPT-4o Mini ottiene ottimi risultati rispetto ad altri modelli popolari.

Confronto di GPT-4o Mini con altri modelli popolari

Fig 3. Confronto tra GPT-4o Mini e altri modelli popolari.

Link to this sectionProvare GPT-4o e GPT-4o Mini#

Un prompt interessante che è stato discusso online riguarda popolari LLM che confrontano numeri decimali in modo errato. Quando abbiamo messo alla prova GPT-4o e GPT-4o Mini, le loro capacità di ragionamento hanno mostrato chiare differenze. Nell'immagine sottostante, abbiamo chiesto a entrambi i modelli quale fosse maggiore tra 9.11 e 9.9, per poi far spiegare il loro ragionamento.

Test del ragionamento di GPT-4o e GPT-4o Mini

Fig 4. Test di GPT-4o e GPT-4o Mini.

Entrambi i modelli rispondono inizialmente in modo errato, sostenendo che 9.11 sia maggiore. Tuttavia, GPT-4o riesce a ragionare fino a raggiungere la risposta corretta e afferma che 9.9 è maggiore. Fornisce una spiegazione dettagliata e confronta accuratamente i decimali. Al contrario, GPT-4o Mini mantiene ostinatamente la sua risposta errata iniziale nonostante abbia intuito correttamente il ragionamento dietro il fatto che 9.9 sia maggiore.

Entrambi i modelli mostrano forti capacità di ragionamento. La capacità di GPT-4o di correggersi lo rende superiore e utile per compiti più complessi. GPT-4o Mini, pur essendo meno adattabile, offre comunque un ragionamento chiaro e accurato per compiti più semplici.

Link to this sectionUtilizzo di GPT-4o Mini per vari casi d'uso di computer vision#

Se preferisci esplorare le capacità visive di GPT-4o Mini senza entrare nel codice, puoi facilmente testare l'API sul OpenAI Playground. Abbiamo fatto una prova noi stessi per vedere quanto bene GPT-4o Mini riesca a gestire vari casi d'uso correlati alla computer vision.

Link to this sectionClassificazione di immagini con GPT-4o Mini#

Abbiamo chiesto a GPT-4o Mini di classificare due immagini: una di una farfalla e una di una mappa. Il modello IA ha identificato con successo la farfalla e la mappa. Questo è un compito abbastanza semplice dato che le immagini sono molto diverse.

Classificazione delle immagini di una farfalla e di una mappa con GPT-4o Mini

Fig 5. Classificazione di immagini con l'aiuto di GPT-4o Mini.

Abbiamo continuato facendo passare altre due immagini nel modello: una che mostrava una farfalla appoggiata su una pianta e un'altra che mostrava una farfalla appoggiata a terra. L'IA ha fatto di nuovo un ottimo lavoro, individuando correttamente la farfalla sulla pianta e quella a terra. Quindi, abbiamo fatto un ulteriore passo avanti.

Classificazione di immagini simili di farfalle con GPT-4o Mini

Fig 6. Classificazione di immagini simili con l'aiuto di GPT-4o Mini.

Abbiamo poi chiesto a GPT-4o Mini di classificare due immagini: una che mostrava una farfalla che si nutriva dei fiori di un'Asclepias incarnata e l'altra che mostrava una farfalla che si nutriva di un fiore di Zinnia. È incredibile che il modello sia stato in grado di classificare un'etichetta così specifica senza ulteriori fine-tuning. Questi rapidi esempi mostrano che GPT-4o Mini potrebbe potenzialmente essere utilizzato per compiti di classificazione di immagini senza bisogno di un addestramento personalizzato.

Classificazione di immagini dettagliate di farfalle con GPT-4o Mini

Fig 7. Classificazione di immagini dettagliate con l'aiuto di GPT-4o Mini.

Link to this sectionComprensione delle pose utilizzando GPT-4o Mini#

Ad oggi, compiti di computer vision come object detection e instance segmentation non possono essere gestiti utilizzando GPT-4o Mini. GPT-4o fatica in termini di precisione, ma può essere utilizzato per tali attività. In questo senso, per quanto riguarda la comprensione delle pose, non possiamo rilevare o stimare la posa nell'immagine, ma possiamo classificarla e comprenderla.

Utilizzo di GPT-4o Mini per comprendere le pose in un'immagine

Fig 8. Utilizzo di GPT-4o Mini per comprendere le pose in un'immagine.

L'immagine sopra mostra come GPT-4o Mini possa classificare e comprendere le pose, nonostante non sia in grado di rilevare o stimare le coordinate precise della posa. Questo può essere utile in diverse applicazioni. Ad esempio, nell'analisi sportiva, può valutare in modo generico i movimenti degli atleti e aiutare a prevenire gli infortuni. Allo stesso modo, nella fisioterapia, può aiutare a monitorare gli esercizi per assicurarsi che vengano eseguiti i movimenti corretti dai pazienti durante la riabilitazione. Anche per la sorveglianza, può aiutare a identificare attività sospette analizzando il linguaggio del corpo in generale. Sebbene GPT-4o Mini non possa rilevare specifici punti chiave, la sua capacità di classificare pose generali lo rende utile in questi e altri campi.

Link to this sectionApplicazioni per cui GPT-4o Mini è adatto#

Abbiamo dato un'occhiata a cosa può fare GPT-4o Mini. Ora, parliamo delle applicazioni in cui è più ottimale utilizzare GPT-4o Mini.

GPT-4o Mini è ottimo per le applicazioni che richiedono una comprensione avanzata del linguaggio naturale e necessitano di un ingombro computazionale ridotto. Rende possibile integrare l'IA in applicazioni dove altrimenti sarebbe troppo costoso. Infatti, un'analisi dettagliata di Artificial Analysis mostra che GPT-4o Mini fornisce risposte di alta qualità a velocità fulminee rispetto alla maggior parte degli altri modelli.

Qualità rispetto alla velocità di output di GPT-4o Mini

Fig 9. Qualità vs. Velocità di output di GPT-4o Mini.

Ecco alcune aree chiave dove potrebbe brillare in futuro:

  • Assistenti virtuali e chatbot: GPT-4o Mini può fornire risposte rapide e intelligenti per migliorare le interazioni con gli utenti.
  • Strumenti educativi: Il modello può essere utilizzato per costruire strumenti che offrano tutoraggio personalizzato e generazione di contenuti.
  • Strumenti di produttività: Può migliorare attività come il riassunto di documenti, la stesura di email e la traduzione di lingue per aumentare l'efficienza.
  • Traduzione linguistica: L'ultima versione di GPT può essere utilizzata per sviluppare traduttori che forniscano traduzioni accurate e in tempo reale per una migliore comunicazione tra lingue diverse.

Link to this sectionGPT-4o Mini apre nuove porte#

GPT-4o Mini sta creando nuove opportunità per il futuro dell'IA multimodale. La spesa per l'elaborazione di ogni pezzo di testo o dato, noto come costo per token, è diminuita sostanzialmente - di quasi il 99% - dal 2022, quando fu rilasciato text-davinci-003, il modello GPT-3. La diminuzione dei costi mostra una chiara tendenza a rendere l'IA avanzata più conveniente. Man mano che i modelli di IA continuano a migliorare, diventa sempre più probabile che l'integrazione dell'IA in ogni app e sito web sarà economicamente sostenibile!

Vuoi metterti alla prova con l'IA? Visita il nostro repository GitHub per vedere le nostre innovazioni e far parte della nostra attiva community. Scopri di più sulle applicazioni dell'IA nella produzione e nell'agricoltura sulle nostre pagine delle soluzioni.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning