Le GPT-4o d'OpenAI illustre le potentiel de l'IA

Abirami Vina

5 minutes de lecture

14 mai 2024

Découvrez le nouveau GPT-4o d'OpenAI, doté d'une IA avancée et d'interactions réalistes qui changent la façon dont nous communiquons avec la technologie. Découvrez ses caractéristiques révolutionnaires !

Le lundi 13 mai 2024, OpenAI a annoncé le lancement de son nouveau modèle phare, GPT-4o, où le "o" signifie "omni". GPT-4o est un modèle d'IA multimodale avancé pour les interactions textuelles, audio et visuelles en temps réel, offrant un traitement plus rapide, un support multilingue et une sécurité accrue.

Il apporte des capacités d'IA générative jamais vues auparavant. S'appuyant sur les atouts de ChatGPT en matière de conversation, les fonctionnalités de GPT-4o marquent une étape importante dans la manière dont les gens perçoivent l'IA. Nous pouvons désormais parler à GPT-4o comme s'il s'agissait d'une personne réelle. Plongeons dans le vif du sujet et voyons exactement ce dont GPT-4o est capable !

Faire connaissance avec le GPT-4o

Lors de la mise à jour de printemps de l'OpenAI, il a été révélé que si GPT-4o est tout aussi intelligent que GPT-4, il peut traiter les données plus rapidement et est mieux équipé pour gérer le texte, la vision et l'audio. Contrairement aux versions précédentes qui visaient à rendre les modèles plus intelligents, cette version a été conçue en gardant à l'esprit la nécessité de rendre l'IA plus facile à utiliser par le grand public. 

__wf_reserved_inherit
Fig 1. Mise à jour de printemps d'OpenAI

Le mode vocal de ChatGPT, sorti à la fin de l'année dernière, faisait appel à trois modèles différents pour transcrire les entrées vocales, comprendre et générer des réponses écrites, et convertir le texte en parole pour que l'utilisateur puisse entendre une réponse. Ce mode était confronté à des problèmes de latence et ne donnait pas l'impression d'être très naturel. Le GPT-4o peut traiter nativement le texte, la vision et l'audio en une seule fois pour donner à l'utilisateur l'impression qu'il participe à une conversation naturelle. 

De plus, contrairement au mode vocal, vous pouvez maintenant interrompre le GPT-4o pendant qu'il parle, et il réagira comme le ferait une personne. Il fera une pause et écoutera, puis donnera sa réponse en temps réel en fonction de ce que vous avez dit. Il peut également exprimer des émotions par sa voix et comprendre votre ton. 

Fonctionnalités passionnantes du GPT-4o

L'évaluation du modèle GPT-4o montre à quel point il est avancé. L'un des résultats les plus intéressants est que GPT-4o améliore considérablement la reconnaissance vocale par rapport à Whisper-v3 dans toutes les langues, en particulier celles qui sont les moins utilisées. 

Les performances de l'ASR audio (reconnaissance automatique de la parole) mesurent la précision avec laquelle un modèle transcrit la langue parlée en texte. Les performances de GPT-4o sont mesurées par le taux d'erreur sur les mots (WER), qui indique le pourcentage de mots incorrectement transcrits (un WER plus faible signifie une meilleure qualité). Le graphique ci-dessous montre que le taux d'erreur de GPT-4o est plus faible dans diverses régions, ce qui prouve son efficacité à améliorer la reconnaissance vocale pour les langues à faibles ressources.

__wf_reserved_inherit
Fig. 2. Le GPT-4o offre une reconnaissance vocale supérieure dans plusieurs langues.

Voici d'autres caractéristiques uniques du GPT-4o :

  • Plus rapide - Il est deux fois plus rapide que le GPT-4 Turbo. Il peut répondre aux entrées audio en seulement 232 millisecondes, soit un temps de réponse similaire à celui d'une conversation humaine.
  • Rentabilité - La version API du GPT-4o est 50 % moins chère que le GPT-4 Turbo.
  • Mémoire - Le GPT-4o a la capacité de rester attentif à différentes conversations. Il peut se souvenir de ce dont vous parlez dans différentes conversations.
  • Multilingue - GPT-4o a été formé pour améliorer la vitesse et la qualité dans 50 langues différentes.

Exemples de ce que GPT-4o peut faire

Vous pouvez maintenant sortir GPT-4o de votre téléphone, allumer votre appareil photo et demander à GPT-4o, comme vous le feriez à un ami, de deviner votre humeur en fonction de l'expression de votre visage. GPT-4o peut vous voir à travers la caméra et répondre.

__wf_reserved_inherit
Fig. 3. GPT-4o : comprendre l'humeur d'un être humain par le biais d'une vidéo.

Vous pouvez même l'utiliser pour vous aider à résoudre des problèmes de mathématiques en montrant à GPT-4o ce que vous écrivez par le biais d'une vidéo. Vous pouvez également partager votre écran et il peut devenir un tuteur utile sur Khan Academy, en vous demandant d'indiquer les différentes parties d'un triangle en géométrie, comme illustré ci-dessous.

__wf_reserved_inherit
Fig. 4. GPT-4o agissant comme un tuteur sur Khan Academy.

En plus d'aider les enfants en mathématiques, les développeurs peuvent discuter avec GPT-4o pour déboguer leur code. Cela est possible grâce à l'introduction de ChatGPT en tant qu'application de bureau. Si vous mettez votre code en surbrillance et le copiez en utilisant la touche CTRL "C" tout en parlant à l'application vocale GPT-4o, celle-ci sera capable de lire votre code. Vous pouvez également l'utiliser pour traduire des conversations entre développeurs parlant des langues différentes. 

Les possibilités offertes par le GPt-4o semblent infinies. L'une des démonstrations les plus intéressantes de l'OpenAI utilisait deux téléphones pour montrer GPt-4o en train de parler à différentes instances de lui-même et de chanter ensemble.

__wf_reserved_inherit
Fig. 5. L'IA parle et chante avec l'IA.

Applications GPT-4o

Comme le montre une démonstration, le GPT-4o peut rendre le monde plus accessible aux personnes souffrant de déficiences visuelles. Il peut les aider à interagir et à se déplacer de manière plus sûre et plus autonome. Par exemple, les utilisateurs peuvent allumer leur vidéo et montrer à GPT-4o une vue de la rue. GPT-4o peut alors fournir des descriptions en temps réel de l'environnement, comme l'identification des obstacles, la lecture des panneaux de signalisation ou le guidage vers un endroit spécifique. Il peut même les aider à héler un taxi en les alertant lorsqu'un taxi s'approche.

__wf_reserved_inherit
Fig. 6. GPT-4o alertant de l'approche d'un taxi.

De même, le GPT-4o peut transformer diverses industries grâce à ses capacités avancées. Dans le commerce de détail, il peut améliorer le service à la clientèle en fournissant une assistance en temps réel, en répondant aux questions et en aidant les clients à trouver les produits en ligne et en magasin. Imaginons que vous regardiez une étagère de produits et que vous ne parveniez pas à trouver le produit que vous cherchez, GPT-4o peut vous aider. 

Dans le domaine de la santé, le GPT-4o peut contribuer au diagnostic en analysant les données des patients, en suggérant des pathologies possibles en fonction des symptômes et en offrant des conseils sur les options de traitement. Il peut également aider les professionnels de la santé en résumant les dossiers des patients, en fournissant un accès rapide à la littérature médicale et même en offrant une traduction en temps réel pour communiquer avec les patients qui parlent d'autres langues. Il ne s'agit là que de quelques exemples. Les applications de GPT-4o facilitent la vie quotidienne en offrant une assistance personnalisée et contextuelle et en éliminant les obstacles à l'information et à la communication.

GPT-4o et sécurité du modèle

Tout comme les versions précédentes de GPT, qui ont eu un impact sur des centaines de millions de vies, GPT-4o interagira probablement avec de l'audio et de la vidéo en temps réel au niveau mondial, ce qui fait de la sécurité un élément crucial de ces applications. L'OpenAI a pris soin de construire le GPT-4o en mettant l'accent sur l'atténuation des risques potentiels.

Pour garantir la sécurité et la fiabilité, OpenAI a mis en œuvre des mesures de sécurité rigoureuses. Celles-ci comprennent le filtrage des données d'entraînement, l'affinement du comportement du modèle après l'entraînement et l'intégration de nouveaux systèmes de sécurité pour la gestion des sorties vocales. En outre, le GPT-4o a été testé de manière approfondie par plus de 70 experts externes dans des domaines tels que la psychologie sociale, les préjugés et l'équité, et la désinformation. Les tests externes permettent de s'assurer que tout risque introduit ou amplifié par les nouvelles fonctionnalités est identifié et traité.

Afin de maintenir des normes de sécurité élevées, OpenAI lancera les fonctionnalités de GPT-4o progressivement au cours des prochaines semaines. Ce déploiement progressif permet à OpenAI de surveiller les performances, de résoudre les problèmes éventuels et de recueillir les commentaires des utilisateurs. Cette approche prudente permet à GPT-4o d'offrir des fonctionnalités avancées tout en respectant les normes les plus strictes en matière de sécurité et d'utilisation éthique.

Essayez GPT-4o vous-même

GPT-4o est disponible en accès gratuit. Pour tester les capacités de conversation en temps réel mentionnées ci-dessus, vous pouvez télécharger l'application ChatGPT depuis le Google Play Store ou l'Apple App Store directement sur votre téléphone. 

Après vous être connecté, vous pourrez sélectionner GPT-4o dans la liste affichée en appuyant sur les trois points dans le coin supérieur droit de l'écran. Après avoir navigué vers un chat activé par GPT-4o, si vous appuyez sur le signe plus dans le coin inférieur gauche de l'écran, vous verrez s'afficher plusieurs options de saisie. Dans le coin inférieur droit de l'écran, vous verrez une icône de casque. En sélectionnant l'icône du casque, il vous sera demandé si vous souhaitez expérimenter une version mains libres de GPT-4o. Après avoir accepté, vous pourrez essayer GPT-4o, comme indiqué ci-dessous.

__wf_reserved_inherit
Fig 7. Essai de GPT-4o sur l'application mobile ChatGPT.

Si vous souhaitez intégrer les capacités avancées de GPT-4o dans vos propres projets, il est disponible en tant qu'API pour les développeurs. Cette API vous permet d'intégrer la puissante reconnaissance vocale de GPT-4o, le support multilingue et les capacités de conversation en temps réel dans vos applications. En utilisant l'API, vous pouvez améliorer l'expérience des utilisateurs, créer des applications plus intelligentes et apporter une technologie d'IA de pointe à différents secteurs.

GPT-4o : Pas encore tout à fait humain

Bien que GPT-4o soit beaucoup plus avancé que les modèles d'IA précédents, il est important de se rappeler que GPT-4o a ses propres limites. OpenAI a indiqué qu'il pouvait parfois changer de langue de manière aléatoire pendant qu'il parlait, passant de l'anglais au français. Elle a également constaté que GPT-4o ne traduisait pas correctement d'une langue à l'autre. Au fur et à mesure que d'autres personnes essaieront le modèle, nous comprendrons où GPT-4o excelle et ce qu'il doit encore améliorer.

Le bilan

Le GPT-4o d'OpenAI ouvre de nouvelles portes à l'IA grâce à son traitement avancé du texte, de la vision et de l'audio, offrant des interactions naturelles, semblables à celles de l'homme. Il excelle en termes de vitesse, de rentabilité et de support multilingue. GPT-4o est un outil polyvalent pour l'éducation, l'accessibilité et l'assistance en temps réel. Au fur et à mesure que les utilisateurs explorent les capacités de GPT-4o, les retours d'information conduiront à son évolution. GPT-4o prouve que l'IA est en train de changer notre monde et de faire partie de notre vie quotidienne. 

Explorez notre dépôt GitHub et rejoignez notre communauté pour approfondir vos connaissances en matière d'IA. Consultez les pages consacrées à nos solutions pour découvrir comment l'IA transforme des secteurs tels que la fabrication et l'agriculture.

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers