Une analyse approfondie des capacités du GPT-4o Mini d'OpenAI
Explore les fonctionnalités et applications de GPT-4o Mini. Le modèle le plus récent et le plus rentable d'OpenAI offre des capacités d'IA avancées pour 60 % moins cher que GPT-3.5 Turbo.

En mai 2024, OpenAI a publié GPT-4o, et à peine trois mois plus tard, ils sont de retour avec un autre modèle impressionnant : GPT-4o Mini. Le 18 juillet 2024, OpenAI a présenté GPT-4o Mini. Ils le qualifient de « modèle le plus rentable » ! GPT-4o Mini est un modèle compact qui s'appuie sur les capacités des modèles précédents et vise à rendre l'IA avancée plus accessible et abordable.
GPT-4o Mini prend actuellement en charge les interactions texte et vision, et des mises à jour futures devraient ajouter des capacités de traitement d'images, de vidéos et d'audio. Dans cet article, nous explorerons ce qu'est GPT-4o Mini, ses fonctionnalités remarquables, comment l'utiliser, les différences entre GPT-4 et GPT-4o Mini, et comment il peut être utilisé dans divers cas d'usage en vision par ordinateur. Plongeons dans le vif du sujet pour voir ce que GPT-4o Mini a à offrir !
Link to this sectionQu'est-ce que GPT-4o Mini ?#
GPT-4o Mini est le dernier ajout à la gamme de modèles d'IA d'OpenAI, conçu pour être plus rentable et accessible. Il s'agit d'un modèle de langage étendu (LLM) multimodal, ce qui signifie qu'il peut traiter et générer différents types de données, comme du texte, des images, des vidéos et de l'audio. Le modèle s'appuie sur les points forts de modèles précédents comme GPT-4 et GPT-4o pour offrir des capacités puissantes dans un format compact.
GPT-4o Mini est 60 % moins cher que GPT-3.5 Turbo, coûtant 15 cents par million de tokens en entrée (unités de texte ou de données traitées par le modèle) et 60 cents par million de tokens en sortie (unités générées par le modèle en réponse). Pour mettre cela en perspective, un million de tokens équivaut environ au traitement de 2 500 pages de texte. Avec une fenêtre de contexte de 128K tokens et la capacité de gérer jusqu'à 16K tokens en sortie par requête, GPT-4o Mini est conçu pour être à la fois efficace et abordable.

Fig 1. GPT-4o Mini est 60 % moins cher que GPT-3.5 Turbo.
Link to this sectionFonctionnalités clés de GPT-4o Mini#
GPT-4o Mini prend en charge une gamme de tâches qui en font une excellente option pour diverses applications. Il peut être utilisé lors de l'exécution de plusieurs opérations simultanément, comme l'appel de plusieurs API, le traitement de grandes quantités de données telles que des bases de code complètes ou des historiques de conversation, et la fourniture de réponses rapides et en temps réel dans des chatbots de support client.
Voici quelques autres fonctionnalités clés :
- Base de connaissances mise à jour : Le modèle contient des informations allant jusqu'en octobre 2023.
- Tokeniseur amélioré : GPT-4o Mini rend le traitement du texte non anglais plus rentable.
- Mesures de sécurité robustes : Ces mesures incluent le filtrage du contenu dangereux et la protection contre les problèmes de sécurité comme les injections de prompt et les manipulations système.
Link to this sectionDémarrer avec GPT-4o Mini#
Tu peux essayer d'utiliser GPT-4o Mini via l'interface ChatGPT. Il est accessible aux utilisateurs Free, Plus et Team, remplaçant GPT-3.5 comme indiqué ci-dessous. Les utilisateurs Enterprise y auront également accès bientôt, conformément à l'objectif d'OpenAI de fournir les avantages de l'IA à tous. GPT-4o Mini est aussi disponible via l'API pour les développeurs qui souhaitent intégrer ses capacités dans leurs applications. Pour le moment, les capacités de vision sont accessibles uniquement via l'API.

Fig 2. Options de modèles au sein de ChatGPT.
Link to this sectionLa différence entre GPT-4o et GPT-4o Mini#
GPT-4o Mini et GPT-4o obtiennent tous deux des résultats impressionnants sur divers benchmarks. Bien que GPT-4o surpasse généralement GPT-4o Mini, GPT-4o Mini reste une solution rentable pour les tâches quotidiennes. Les benchmarks incluent des tâches de raisonnement, des compétences en mathématiques et en codage, ainsi que le raisonnement multimodal. Comme le montre l'image ci-dessous, GPT-4o Mini se classe assez haut par rapport à d'autres modèles populaires.

Fig 3. Comparaison de GPT-4o Mini avec d'autres modèles populaires.
Link to this sectionPrendre en main GPT-4o et GPT-4o Mini#
Un prompt intéressant qui a fait l'objet de débats en ligne concerne des LLM populaires comparant des nombres décimaux de manière incorrecte. Lorsque nous avons mis GPT-4o et GPT-4o Mini à l'épreuve, leurs capacités de raisonnement ont montré des différences claires. Dans l'image ci-dessous, nous avons demandé aux deux modèles lequel est le plus grand entre 9.11 et 9.9, puis nous leur avons demandé d'expliquer leur raisonnement.

Fig 4. Test de GPT-4o et GPT-4o Mini.
Les deux modèles répondent initialement de manière incorrecte et affirment que 9.11 est plus grand. Cependant, GPT-4o est capable de raisonner pour trouver la bonne réponse et affirme que 9.9 est plus grand. Il fournit une explication détaillée et compare les décimales avec précision. En revanche, GPT-4o Mini maintient obstinément sa première mauvaise réponse malgré le fait d'avoir trouvé correctement le raisonnement expliquant pourquoi 9.9 est plus grand.
Les deux modèles font preuve de solides compétences en raisonnement. La capacité de GPT-4o à se corriger le rend supérieur et utile pour des tâches plus complexes. GPT-4o Mini, bien que moins adaptable, offre toujours un raisonnement clair et précis pour des tâches plus simples.
Link to this sectionUtiliser GPT-4o Mini pour divers cas d'usage en vision par ordinateur#
Si tu préfères explorer les capacités de vision de GPT-4o Mini sans te plonger dans le code, tu peux facilement tester l'API sur le OpenAI Playground. Nous l'avons testé nous-mêmes pour voir dans quelle mesure GPT-4o Mini est capable de gérer divers cas d'usage liés à la vision par ordinateur.
Link to this sectionClassification d'images à l'aide de GPT-4o Mini#
Nous avons demandé à GPT-4o Mini de classifier deux images : l'une d'un papillon et l'autre d'une carte. Le modèle d'IA a identifié avec succès le papillon et la carte. C'est une tâche assez simple étant donné que les images sont très différentes.

Fig 5. Classification d'images avec l'aide de GPT-4o Mini.
Nous avons continué et soumis deux images supplémentaires au modèle : l'une montrant un papillon posé sur une plante et une autre montrant un papillon posé sur le sol. L'IA a encore fait un excellent travail, repérant correctement le papillon sur la plante et celui sur le sol. Nous sommes donc allés encore plus loin.

Fig 6. Classification d'images similaires avec l'aide de GPT-4o Mini.
Nous avons ensuite demandé à GPT-4o Mini de classifier deux images : l'une montrant un papillon se nourrissant sur les fleurs d'une asclépiade et l'autre montrant un papillon se nourrissant sur une fleur de Zinnia. Il est incroyable que le modèle ait été capable de classifier une étiquette aussi spécifique sans entraînement supplémentaire. Ces exemples rapides montrent que GPT-4o Mini pourrait éventuellement être utilisé pour des tâches de classification d'images sans nécessiter d'entraînement personnalisé.

Fig 7. Classification d'images détaillées avec l'aide de GPT-4o Mini.
Link to this sectionComprendre les poses en utilisant GPT-4o Mini#
À l'heure actuelle, les tâches de vision par ordinateur comme la détection d'objets et la segmentation d'instance ne peuvent pas être gérées par GPT-4o Mini. GPT-4o a des difficultés avec la précision, mais peut être utilisé pour de telles tâches. Dans cette optique, en ce qui concerne la compréhension des poses, nous ne pouvons pas détecter ou estimer la pose dans l'image, mais nous pouvons classifier et comprendre la pose.

Fig 8. Utiliser GPT-4o Mini pour comprendre les poses dans une image.
L'image ci-dessus montre comment GPT-4o Mini peut classifier et comprendre les poses, bien qu'il ne soit pas capable de détecter ou d'estimer les coordonnées précises de la pose. Cela peut être utile dans différentes applications. Par exemple, dans l'analyse sportive, il peut évaluer globalement les mouvements des athlètes et aider à prévenir les blessures. De même, en physiothérapie, il peut aider à surveiller les exercices pour s'assurer que les mouvements corrects sont effectués par les patients pendant leur rééducation. Également pour la surveillance, il peut aider à identifier les activités suspectes en analysant le langage corporel général. Bien que GPT-4o Mini ne puisse pas détecter des points clés spécifiques, sa capacité à classifier les poses générales le rend utile dans ces domaines et d'autres.
Link to this sectionApplications auxquelles GPT-4o Mini est adapté#
Nous avons examiné ce que GPT-4o Mini peut faire. Maintenant, discutons des applications pour lesquelles il est le plus optimal d'utiliser GPT-4o Mini.
GPT-4o Mini est idéal pour les applications qui nécessitent une compréhension avancée du langage naturel et ont besoin d'une empreinte computationnelle réduite. Cela permet d'intégrer l'IA dans des applications où cela serait normalement trop coûteux. En fait, une analyse détaillée par Artificial Analysis montre que GPT-4o Mini fournit des réponses de haute qualité à des vitesses fulgurantes par rapport à la plupart des autres modèles.

Fig 9. Qualité vs Vitesse de sortie de GPT-4o Mini.
Voici quelques domaines clés où il pourrait briller à l'avenir :
- Assistants virtuels et chatbots : GPT-4o Mini peut fournir des réponses rapides et intelligentes pour améliorer les interactions des utilisateurs.
- Outils éducatifs : Le modèle peut être utilisé pour créer des outils offrant un tutorat personnalisé et une génération de contenu.
- Outils de productivité : Il peut améliorer les tâches telles que la synthèse de documents, la rédaction d'e-mails et la traduction de langues pour accroître l'efficacité.
- Traduction linguistique : La dernière version de GPT peut être utilisée pour développer des traducteurs qui fournissent une traduction linguistique précise et en temps réel pour une meilleure communication entre différentes langues.
Link to this sectionGPT-4o Mini ouvre de nouvelles portes#
GPT-4o Mini crée de nouvelles opportunités pour l'avenir de l'IA multimodale. La dépense pour traiter chaque morceau de texte ou de données, connue sous le nom de coût par token, a diminué de manière substantielle - de près de 99 % - depuis 2022, lorsque text-davinci-003, le modèle GPT-3, a été publié. La baisse du coût montre une tendance claire vers une IA avancée plus abordable. Alors que les modèles d'IA continuent de s'améliorer, il devient de plus en plus probable que l'intégration de l'IA dans chaque application et site web sera économiquement viable !
Tu veux te lancer dans l'IA ? Visite notre dépôt GitHub pour voir nos innovations et fais partie de notre communauté active. Découvre-en plus sur les applications de l'IA dans l'industrie et l'agriculture sur nos pages de solutions.






