Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Un examen approfondi des capacités de GPT-4o Mini d'OpenAI

Abirami Vina

6 min de lecture

25 juillet 2024

Explorez les fonctionnalités et les applications de GPT-4o Mini. Le dernier modèle d'OpenAI, le plus rentable, offre des capacités d'IA avancées à un prix 60 % inférieur à celui de GPT-3.5 Turbo.

En mai 2024, OpenAI a lancé GPT-4o, et maintenant, à peine trois mois plus tard, ils reviennent avec un autre modèle impressionnant : GPT-4o Mini. Le 18 juillet 2024, OpenAI a présenté GPT-4o Mini, qu'ils qualifient de “modèle le plus rentable” ! GPT-4o Mini est un modèle compact qui s'appuie sur les capacités des modèles précédents et vise à rendre l'IA avancée plus accessible et abordable.

GPT-4o Mini prend actuellement en charge les interactions texte et vision, et les mises à jour futures devraient ajouter des fonctionnalités pour la gestion des images, des vidéos et de l'audio. Dans cet article, nous allons explorer ce qu'est GPT-4o Mini, ses principales caractéristiques, comment il peut être utilisé, les différences entre GPT-4 et GPT-4o Mini, et comment il peut être utilisé dans divers cas d'utilisation de la vision par ordinateur. Plongeons-nous et voyons ce que GPT-4o Mini a à offrir !

Qu'est-ce que GPT-4o Mini ?

GPT-4o Mini est le dernier ajout à la gamme de modèles d'IA d'OpenAI, conçu pour être plus rentable et accessible. Il s'agit d'un grand modèle linguistique (LLM) multimodal, ce qui signifie qu'il peut traiter et générer différents types de données, tels que du texte, des images, des vidéos et de l'audio. Le modèle s'appuie sur les points forts des modèles précédents tels que GPT-4 et GPT-4o pour offrir des capacités puissantes dans un ensemble compact. 

GPT-4o Mini est 60 % moins cher que GPT-3.5 Turbo, coûtant 15 cents par million de tokens d'entrée (unités de texte ou de données que le modèle traite) et 60 cents par million de tokens de sortie (unités que le modèle génère en réponse). Pour mettre cela en perspective, un million de tokens équivaut à peu près au traitement de 2 500 pages de texte. Avec une fenêtre de contexte de 128 000 tokens et la capacité de gérer jusqu'à 16 000 tokens de sortie par requête, GPT-4o Mini est conçu pour être à la fois efficace et abordable.

__wf_reserved_inherit
Fig 1. GPT-4o Mini est 60 % moins cher que GPT-3.5 Turbo.

Principales caractéristiques de GPT-4o Mini 

GPT-4o Mini prend en charge une gamme de tâches qui en font une excellente option pour diverses applications. Il peut être utilisé lors de l'exécution de plusieurs opérations à la fois, telles que l'appel de plusieurs API, la gestion de grandes quantités de données comme des bases de code complètes ou des historiques de conversation, et la fourniture de réponses rapides en temps réel dans les chatbots de support client.

Voici quelques autres fonctionnalités clés :

  • Base de connaissances mise à jour : Le modèle contient des informations allant jusqu’en octobre 2023.
  • Tokenizer amélioré : GPT-4o Mini rend le traitement du texte non anglais plus rentable.
  • Mesures de sécurité robustes : Ces mesures comprennent le filtrage du contenu nuisible et la protection contre les problèmes de sécurité tels que les injections d'invites et les manipulations du système.

Démarrage avec GPT-4o Mini 

Vous pouvez essayer d'utiliser GPT-4o Mini via l'interface ChatGPT. Il est accessible aux utilisateurs Free, Plus et Team, remplaçant GPT-3.5 comme indiqué ci-dessous. Les utilisateurs Enterprise y auront également accès prochainement, conformément à l'objectif d'OpenAI de fournir les avantages de l'IA à tous. GPT-4o Mini est également disponible via l'API pour les développeurs qui souhaitent intégrer ses capacités dans leurs applications. Pour le moment, les capacités de vision ne sont accessibles que via l'API.

__wf_reserved_inherit
Fig 2. Options de modèles dans ChatGPT.

La différence entre GPT-4o et GPT-4o Mini 

GPT-4o Mini et GPT-4o offrent tous deux des performances impressionnantes dans divers benchmarks. Bien que GPT-4o surpasse généralement GPT-4o Mini, GPT-4o Mini reste une solution rentable pour les tâches quotidiennes. Les benchmarks incluent les tâches de raisonnement, les compétences en mathématiques et en codage, et le raisonnement multimodal. Comme le montre l'image ci-dessous, GPT-4o Mini obtient des résultats très élevés par rapport à d'autres modèles populaires.

__wf_reserved_inherit
Fig 3. Comparaison de GPT-4o Mini avec d'autres modèles populaires.

Prise en main de GPT-4o et GPT-4o Mini

Une question intéressante qui a été débattue en ligne concerne la comparaison incorrecte des nombres décimaux par les LLM populaires. Lorsque nous avons mis GPT-4o et GPT-4o Mini à l'épreuve, leurs capacités de raisonnement ont montré des différences claires. Dans l'image ci-dessous, nous avons demandé aux deux modèles lequel est le plus grand : 9,11 ou 9,9, puis nous leur avons demandé d'expliquer leur raisonnement.

__wf_reserved_inherit
Fig. 4. Test de GPT-4o et GPT-4o Mini.

Les deux modèles répondent initialement de manière incorrecte et affirment que 9,11 est supérieur. Cependant, GPT-4o est capable de raisonner pour arriver à la bonne réponse et déclare que 9,9 est supérieur. Il fournit une explication détaillée et compare les décimales avec précision. En revanche, GPT-4o Mini maintient obstinément sa mauvaise réponse initiale malgré avoir compris correctement le raisonnement derrière la supériorité de 9,9.

Les deux modèles font preuve de solides compétences en matière de raisonnement. La capacité de GPT-4o à se corriger le rend supérieur et utile pour des tâches plus complexes. GPT-4o Mini, bien que moins adaptable, offre toujours un raisonnement clair et précis pour des tâches plus simples. 

Utilisation de GPT-4o Mini pour divers cas d'utilisation de la vision par ordinateur

Si vous préférez explorer les capacités de vision de GPT-4o Mini sans plonger dans le code, vous pouvez facilement tester l'API sur OpenAI Playground. Nous l'avons testé nous-mêmes pour voir comment GPT-4o Mini est capable de gérer divers cas d'utilisation liés à la vision par ordinateur.

Classification d'images utilisant GPT-4o Mini

Nous avons demandé à GPT-4o Mini de classifier deux images : une d'un papillon et une d'une carte. Le modèle d'IA a identifié avec succès le papillon et la carte. Il s'agit d'une tâche assez simple étant donné que les images sont très différentes.

__wf_reserved_inherit
Fig 5. Classification d'images à l'aide de GPT-4o Mini.

Nous avons ensuite exécuté deux autres images à travers le modèle : une montrant un papillon se reposant sur une plante et une autre montrant un papillon se reposant sur le sol. L'IA a de nouveau fait un excellent travail, en repérant correctement le papillon sur la plante et celui sur le sol. Nous sommes donc allés encore plus loin.

__wf_reserved_inherit
Fig 6. Classification d'images similaires à l'aide de GPT-4o Mini.

Nous avons ensuite demandé à GPT-4o Mini de classer deux images : l'une montrant un papillon se nourrissant des fleurs d'une asclépiade des marais et l'autre montrant un papillon se nourrissant d'une fleur de zinnia. Il est étonnant de constater que le modèle a été capable de classer une étiquette aussi spécifique sans autre ajustement. Ces exemples rapides montrent que GPT-4o Mini pourrait éventuellement être utilisé pour des tâches de classification d'images sans nécessiter d'entraînement personnalisé.

__wf_reserved_inherit
Fig 7. Classification d'images détaillées à l'aide de GPT-4o Mini.

Comprendre les poses à l'aide de GPT-4o Mini

À l'heure actuelle, les tâches de vision par ordinateur comme la détection d'objets et la segmentation d'instance ne peuvent pas être gérées à l'aide de GPT-4o Mini. GPT-4o a du mal à être précis, mais peut être utilisé pour de telles tâches. Dans le même ordre d'idées, en ce qui concerne la compréhension des poses, nous ne pouvons pas détecter ou estimer la pose dans l'image, mais nous pouvons classer et comprendre la pose.

__wf_reserved_inherit
Fig 8. Utilisation de GPT-4o Mini pour comprendre les poses dans une image. 

L'image ci-dessus montre comment GPT-4o Mini peut classifier et comprendre les poses, bien qu'il ne soit pas en mesure de détecter ou d'estimer les coordonnées précises de la pose. Cela peut être utile dans différentes applications. Par exemple, dans l'analyse sportive, il peut évaluer globalement les mouvements des athlètes et aider à prévenir les blessures. De même, en kinésithérapie, il peut aider à surveiller les exercices pour s'assurer que les patients effectuent les mouvements corrects pendant la rééducation. De plus, pour la surveillance, il peut aider à identifier les activités suspectes en analysant le langage corporel général. Bien que GPT-4o Mini ne puisse pas détecter des points clés spécifiques, sa capacité à classifier les poses générales le rend utile dans ces domaines et dans d'autres.

Applications pour lesquelles GPT-4o Mini est adapté

Nous avons examiné ce que GPT-4o Mini peut faire. Examinons maintenant les applications où il est le plus optimal d'utiliser GPT-4o Mini.

GPT-4o Mini est idéal pour les applications qui nécessitent une compréhension avancée du langage naturel et qui ont besoin d'un faible encombrement de calcul. Il permet d'intégrer l'IA dans des applications où elle serait normalement trop coûteuse. En fait, une analyse détaillée par Artificial Analysis montre que GPT-4o Mini fournit des réponses de haute qualité à des vitesses fulgurantes par rapport à la plupart des autres modèles.

__wf_reserved_inherit
Fig 9. Qualité vs Vitesse de sortie de GPT-4o Mini.

Voici quelques domaines clés où il pourrait exceller à l'avenir :

  • Assistants virtuels et chatbots : GPT-4o Mini peut fournir des réponses rapides et intelligentes pour améliorer les interactions avec les utilisateurs.
  • Outils pédagogiques: Le modèle peut être utilisé pour créer des outils offrant un tutorat personnalisé et une génération de contenu.
  • Outils de productivité : Il peut améliorer les tâches comme la synthèse de documents, la rédaction d'e-mails et la traduction de langues pour améliorer l'efficacité.
  • Traduction linguistique : La dernière version de GPT peut être utilisée pour développer des traducteurs qui fournissent une traduction linguistique précise et en temps réel pour une meilleure communication entre les différentes langues.

GPT-4o Mini ouvre de nouvelles perspectives

GPT-4o Mini crée de nouvelles opportunités pour l'avenir de l'IA multimodale. Le coût de traitement de chaque élément de texte ou de données, connu sous le nom de coût par token, a considérablement diminué, de près de 99 %, depuis 2022, date de la sortie de text-davinci-003, le modèle GPT-3. La diminution du coût montre une tendance claire à rendre l'IA avancée plus abordable. À mesure que les modèles d'IA continuent de s'améliorer, il devient de plus en plus probable que l'intégration de l'IA dans chaque application et site Web sera économiquement viable !

Envie de vous familiariser avec l'IA ? Visitez notre dépôt GitHub pour découvrir nos innovations et faire partie de notre communauté active. Découvrez-en davantage sur les applications de l'IA dans les secteurs de la fabrication et de l'agriculture sur nos pages de solutions.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers