GPT-4o d'OpenAI met en valeur le potentiel de l'IA
Explore le nouveau GPT-4o d'OpenAI, doté d'une IA avancée avec des interactions réalistes qui changent la façon dont nous communiquons avec la technologie. Explore ses fonctionnalités révolutionnaires !

Le lundi 13 mai 2024, OpenAI a annoncé le lancement de son nouveau modèle phare, GPT-4o, où le « o » signifie « omni ». GPT-4o est un modèle d'IA multimodal avancé pour des interactions en temps réel par texte, audio et vision, offrant un traitement plus rapide, une prise en charge multilingue et une sécurité renforcée.
Il propose des capacités d'IA générative inédites. S'appuyant sur les forces conversationnelles de ChatGPT, les fonctionnalités de GPT-4o marquent une étape importante dans la perception de l'IA par le public. Nous pouvons désormais parler à GPT-4o comme s'il s'agissait d'une vraie personne. Plongeons dans le vif du sujet et découvrons exactement de quoi GPT-4o est capable !
Link to this sectionApprendre à connaître GPT-4o#
Lors de la mise à jour printanière d'OpenAI, il a été révélé que, bien que GPT-4o soit tout aussi intelligent que GPT-4, il peut traiter les données plus rapidement et est mieux équipé pour gérer le texte, la vision et l'audio. Contrairement aux versions précédentes qui se concentraient sur l'amélioration de l'intelligence des modèles, cette version a été conçue en gardant à l'esprit la nécessité de rendre l'IA plus facile à utiliser pour le grand public.

Fig 1. Mise à jour printanière d'OpenAI
Le mode vocal de ChatGPT, sorti à la fin de l'année dernière, impliquait trois modèles différents travaillant de concert pour transcrire les entrées vocales, comprendre et générer des réponses écrites, puis convertir le texte en parole afin que l'utilisateur puisse entendre une réponse. Ce mode gérait mal la latence et ne semblait pas très naturel. GPT-4o peut traiter nativement le texte, la vision et l'audio en une seule fois pour donner à l'utilisateur l'impression de participer à une conversation naturelle.
De plus, contrairement au mode vocal, tu peux maintenant interrompre GPT-4o pendant qu'il parle, et il réagira exactement comme le ferait une personne. Il fera une pause pour écouter, puis donnera sa réponse en temps réel basée sur ce que tu as dit. Il peut également exprimer des émotions à travers sa voix et comprendre ton ton.
Link to this sectionFonctionnalités passionnantes de GPT-4o#
L'évaluation du modèle GPT-4o montre à quel point il est avancé. L'un des résultats les plus intéressants a révélé que GPT-4o améliore considérablement la reconnaissance vocale par rapport à Whisper-v3 dans toutes les langues, en particulier celles qui sont moins couramment utilisées.
Les performances de l'ASR (Automatic Speech Recognition) audio mesurent la précision avec laquelle un modèle transcrit la langue parlée en texte. Les performances de GPT-4o sont suivies par le WER (Word Error Rate), qui indique le pourcentage de mots incorrectement transcrits (un WER plus bas signifie une meilleure qualité). Le graphique ci-dessous présente le WER inférieur de GPT-4o dans diverses régions, démontrant son efficacité à améliorer la reconnaissance vocale pour les langues moins dotées en ressources.

Fig 2. GPT-4o possède une reconnaissance vocale supérieure dans plusieurs langues.
Voici un aperçu de quelques autres fonctionnalités uniques de GPT-4o :
- Plus rapide - Il est deux fois plus rapide que GPT-4 Turbo. Il peut répondre aux entrées audio en seulement 232 millisecondes, des temps de réponse similaires à ceux d'une conversation humaine.
- Rentable - La version API de GPT-4o est 50 % moins chère que GPT-4 Turbo.
- Mémoire - GPT-4o a la capacité de maintenir une conscience entre différentes conversations. Il peut se souvenir de ce dont vous discutez dans différentes sessions de chat.
- Multilingue - GPT-4o a été entraîné pour améliorer sa vitesse et sa qualité dans 50 langues différentes.
Link to this sectionExemples de ce que GPT-4o peut faire#
Tu peux maintenant sortir ton téléphone, lancer GPT-4o, activer ta caméra et lui demander, comme tu le ferais à un ami, de deviner ton humeur en fonction de ton expression faciale. GPT-4o peut te voir à travers la caméra et répondre.

Fig 3. GPT-4o comprend l'humeur d'une personne via la vidéo.
Tu peux même l'utiliser pour t'aider à résoudre des problèmes de mathématiques en montrant à GPT-4o ce que tu écris via la vidéo. Alternativement, tu peux partager ton écran, et il peut devenir un tuteur utile sur Khan Academy, en te demandant de pointer différentes parties d'un triangle en géométrie, comme illustré ci-dessous.

Fig 4. GPT-4o agissant comme un tuteur sur Khan Academy.
Au-delà de l'aide aux devoirs de mathématiques, les développeurs peuvent avoir des conversations avec GPT-4o pour déboguer leur code. Cela est possible grâce à l'introduction de ChatGPT en tant qu'application de bureau. Si tu surlignes et copies ton code en utilisant CTRL « C » tout en parlant à l'application vocale de bureau GPT-4o, il sera capable de lire ton code. Ou bien, tu peux l'utiliser pour traduire des conversations entre des développeurs parlant des langues différentes.
Les possibilités avec GPT-4o semblent infinies. L'une des démos les plus intéressantes d'OpenAI a utilisé deux téléphones pour montrer GPT-4o parlant à différentes instances de lui-même et chantant ensemble.

Fig 5. Une IA parlant et chantant avec une autre IA.
Link to this sectionApplications de GPT-4o#
Comme démontré dans une démo, GPT-4o peut rendre le monde plus accessible aux personnes malvoyantes. Il peut les aider à interagir et à se déplacer plus facilement et de manière autonome. Par exemple, les utilisateurs peuvent activer leur vidéo et montrer à GPT-4o une vue de la rue. GPT-4o peut alors fournir des descriptions en temps réel de l'environnement, comme identifier des obstacles, lire des panneaux de signalisation ou les guider vers un lieu spécifique. Il peut même les aider à héler un taxi en les alertant lorsqu'un taxi approche.

Fig 6. GPT-4o signalant l'approche d'un taxi.
De même, GPT-4o peut transformer diverses industries grâce à ses capacités avancées. Dans le retail, il peut améliorer le service client en offrant une assistance en temps réel, en répondant aux questions et en aidant les clients à trouver des produits, aussi bien en ligne qu'en magasin. Disons que tu regardes une étagère de produits et que tu n'arrives pas à choisir l'article que tu cherches, GPT-4o peut t'aider.
Dans le secteur de la healthcare, GPT-4o peut aider aux diagnostics en analysant les données des patients, en suggérant des affections possibles en fonction des symptômes et en offrant des conseils sur les options de traitement. Il peut également soutenir les professionnels de santé en résumant les dossiers des patients, en offrant un accès rapide à la littérature médicale et même en proposant une traduction linguistique en temps réel pour communiquer avec des patients parlant différentes langues. Ce ne sont là que quelques exemples. Les applications de GPT-4o facilitent le quotidien en offrant une assistance personnalisée et contextuelle, tout en brisant les barrières à l'information et à la communication.
Link to this sectionGPT-4o et la sécurité des modèles#
Tout comme les versions précédentes de GPT, qui ont eu un impact sur des centaines de millions de vies, GPT-4o interagira probablement avec l'audio et la vidéo en temps réel à l'échelle mondiale, faisant de la sécurité un élément crucial de ces applications. OpenAI a pris grand soin de développer GPT-4o en se concentrant sur l'atténuation des risques potentiels.
Pour garantir la sécurité et la fiabilité, OpenAI a mis en œuvre des mesures de sécurité rigoureuses. Celles-ci incluent le filtrage des données d'entraînement, l'affinement du comportement du modèle après l'entraînement et l'intégration de nouveaux systèmes de sécurité pour la gestion des sorties vocales. De plus, GPT-4o a été largement testé par plus de 70 experts externes dans des domaines tels que la psychologie sociale, les biais et l'équité, et la désinformation. Les tests externes permettent de s'assurer que tout risque introduit ou amplifié par les nouvelles fonctionnalités est identifié et traité.
Afin de maintenir des normes de sécurité élevées, OpenAI déploie les fonctionnalités de GPT-4o progressivement au cours des prochaines semaines. Un déploiement par phases permet à OpenAI de surveiller les performances, de résoudre les problèmes éventuels et de recueillir les retours des utilisateurs. Cette approche prudente garantit que GPT-4o offre des capacités avancées tout en maintenant les standards les plus élevés en matière de sécurité et d'éthique.
Link to this sectionTeste GPT-4o par toi-même#
GPT-4o est disponible en accès gratuit. Pour tester les capacités de conversation en temps réel mentionnées ci-dessus, tu peux télécharger l'application ChatGPT app depuis le Google Play Store ou l'Apple App Store directement sur ton téléphone.
Après t'être connecté, tu pourras sélectionner GPT-4o dans la liste affichée en appuyant sur les trois points dans le coin supérieur droit de l'écran. Après avoir accédé à une discussion activée avec GPT-4o, si tu appuies sur le signe plus dans le coin inférieur gauche de l'écran, tu verras plusieurs options d'entrée. Dans le coin inférieur droit de l'écran, tu verras une icône de casque. En sélectionnant l'icône de casque, on te demandera si tu souhaites faire l'expérience d'une version mains libres de GPT-4o. Après avoir accepté, tu pourras essayer GPT-4o, comme indiqué ci-dessous.

Fig 7. Essayer GPT-4o sur l'application mobile ChatGPT.
Si tu souhaites intégrer les capacités avancées de GPT-4o dans tes propres projets, il est disponible sous forme d'API pour les développeurs. Elle te permet d'incorporer la puissante reconnaissance vocale, la prise en charge multilingue et les capacités de conversation en temps réel de GPT-4o dans tes applications. En utilisant l'API, tu peux améliorer les expériences utilisateur, créer des applications plus intelligentes et apporter une technologie d'IA de pointe à différents secteurs.
Link to this sectionGPT-4o : Pas encore tout à fait humain#
Bien que GPT-4o soit beaucoup plus avancé que les modèles d'IA précédents, il est important de se rappeler que GPT-4o a ses propres limites. OpenAI a mentionné qu'il peut parfois changer de langue de manière aléatoire en parlant, passant de l'anglais au français. Ils ont également constaté que GPT-4o traduit parfois incorrectement entre les langues. À mesure que davantage de personnes testeront le modèle, nous comprendrons où GPT-4o excelle et ce qui nécessite encore des améliorations.
Link to this sectionLe bilan#
Le GPT-4o d'OpenAI ouvre de nouvelles portes à l'IA grâce à son traitement avancé du texte, de la vision et de l'audio, offrant des interactions naturelles et humaines. Il excelle en termes de vitesse, de rentabilité et de support multilingue. GPT-4o est un outil polyvalent pour l'éducation, l'accessibilité et l'assistance en temps réel. À mesure que les utilisateurs explorent les capacités de GPT-4o, leurs retours guideront son évolution. GPT-4o prouve que l'IA change véritablement notre monde et devient une partie intégrante de notre vie quotidienne.
Explore notre GitHub repository et rejoins notre community pour approfondir tes connaissances en IA. Visite nos pages de solutions pour voir comment l'IA transforme des secteurs comme le manufacturing et l'agriculture.






