Les dernières mises à jour d'OpenAI : Canvas, réglage fin de la vision, et plus
Rejoins-nous pour examiner de plus près les récentes mises à jour de ChatGPT publiées par OpenAI. Nous explorerons Canvas, le réglage fin pour les capacités visuelles et la dernière fonctionnalité de recherche.

Après notre dernier examen des modèles o1 d'OpenAI en septembre (qui ont été conçus pour améliorer le raisonnement), de nombreuses fonctionnalités nouvelles et passionnantes ont été ajoutées à ChatGPT. Certaines de ces versions sont destinées aux développeurs, tandis que d'autres sont conçues pour améliorer l'expérience utilisateur. Globalement, chaque mise à niveau contribue à rendre les interactions avec ChatGPT plus intuitives et efficaces.
Des mises à jour comme Canvas, conçue pour l'écriture et le codage collaboratifs, et le réglage fin pour les capacités de vision qui améliore la manière dont ChatGPT traite les images, ont suscité beaucoup d'intérêt, encourageant les utilisateurs à explorer davantage de possibilités créatives. Parallèlement, des mises à niveau techniques, comme de nouvelles API et des rapports de tests d'équité, abordent des aspects tels que l'intégration des modèles et les pratiques d'IA éthique. Plongeons dans le vif du sujet pour mieux comprendre les dernières fonctionnalités de ChatGPT de la part d'OpenAI !
Link to this sectionUn aperçu de la fonctionnalité Canvas d'OpenAI#
Canvas est la première mise à jour majeure de l'interface utilisateur (UI) de ChatGPT depuis son lancement. Il s'agit d'une nouvelle interface avec une disposition à deux écrans, des invites dans la barre latérale gauche et les réponses dans la fenêtre de droite. La nouvelle UI élimine la structure habituelle en écran unique semblable à un chat et passe à une mise en page à deux écrans adaptée au multitâche pour booster la productivité.

Fig 1. Canvas apporte des mises à jour de l'interface à ChatGPT.
Avant l'introduction de Canvas, travailler sur des documents longs sur ChatGPT signifiait devoir faire défiler la page assez souvent. Dans la nouvelle mise en page, les invites sont affichées dans la barre latérale gauche, et le document texte ou l'extrait de code occupe la majeure partie de l'écran. Si nécessaire, tu peux même personnaliser la taille de la barre latérale gauche et de l'écran de sortie. De plus, tu peux sélectionner une partie du texte ou une section de code et modifier la section spécifique sans altérer l'ensemble du document.

Fig 2. Modifie des sections spécifiques de texte à l'aide de Canvas.
Si tu utilises Canvas, tu remarqueras qu'il n'y a pas de bouton ou d'interrupteur spécifique pour l'ouvrir sur l'interface ChatGPT. Au lieu de cela, lorsque tu travailles avec le modèle GPT-4o, Canvas s'ouvre automatiquement s'il détecte que tu es en train de modifier, rédiger ou coder. Pour des invites plus simples, il reste inactif. Si tu souhaites l'ouvrir manuellement, tu peux utiliser des invites comme "Open the Canvas" ou "Get me the Canvas layout."
Actuellement, Canvas est en version bêta et disponible uniquement avec GPT-4o. Cependant, OpenAI a mentionné que Canvas sera disponible pour tous les utilisateurs gratuits une fois la version bêta terminée.
Link to this sectionMises à jour de l'API de ChatGPT#
OpenAI a publié trois nouvelles mises à jour de l'API ChatGPT visant à améliorer l'efficacité, l'évolutivité et la polyvalence. Examinons de plus près chacune de ces mises à jour.
Link to this sectionDistillation de modèle#
En utilisant la fonctionnalité de Distillation de modèle via les API d'OpenAI, les développeurs peuvent utiliser les sorties de modèles avancés comme GPT-4o ou o1-preview pour améliorer les performances de modèles plus petits et rentables comme GPT-4o mini. La distillation de modèle est un processus qui implique l'entraînement de modèles plus petits pour imiter le comportement de modèles plus avancés, les rendant plus efficaces pour des tâches spécifiques.
Avant l'introduction de cette fonctionnalité, tu devais coordonner manuellement une variété de tâches à l'aide de différents outils. Ces tâches incluaient la génération de datasets, la mesure de la performance du modèle, et le fine-tuning des modèles, ce qui rendait souvent le processus complexe et sujet aux erreurs. La mise à jour de la distillation de modèle (Model Distillation) te permet d'utiliser des complétions stockées (Stored Completions), un outil qui te permet de générer automatiquement des datasets en capturant et en stockant les paires entrée-sortie produites par des modèles avancés via l'API.
Une autre fonctionnalité de la distillation de modèle, Evals (actuellement en bêta), aide à mesurer les performances d'un modèle sur des tâches spécifiques, sans avoir besoin de créer des scripts d'évaluation personnalisés ou d'utiliser des outils séparés. En utilisant des datasets générés avec Stored Completions et en évaluant les performances avec Evals, les développeurs peuvent affiner leurs propres modèles GPT personnalisés.

Fig 3. Tu peux utiliser Evals pour mesurer les performances du modèle.
Link to this sectionMise en cache des invites#
Souvent, lors de la création d'applications IA, en particulier de chatbots, le même contexte (les informations d'arrière-plan ou l'historique de conversation nécessaire pour comprendre la requête actuelle) sera utilisé à plusieurs reprises pour de multiples appels d'API. Le cache de prompt (Prompt Caching) permet aux développeurs de réutiliser les jetons d'entrée récemment utilisés (segments de texte que le modèle traite pour comprendre le prompt et générer une réponse), aidant ainsi à réduire les coûts et la latence.
Depuis le 1er octobre, OpenAI a automatiquement appliqué le Prompt Caching à ses modèles comme GPT-4o, GPT-4o mini, o1-preview, et o1-mini. Cela signifie que lorsque tu utilises l'API pour interagir avec un modèle via un long prompt (plus de 1 024 jetons), le système enregistre les parties qu'il a déjà traitées.
De cette façon, si les mêmes invites ou des invites similaires sont utilisées à nouveau, il peut ignorer le recalcul de ces parties. Le système met automatiquement en cache la plus longue partie de l'invite qu'il a précédemment rencontrée, en commençant par 1 024 tokens et en ajoutant des morceaux de 128 tokens à mesure que l'invite devient plus longue.
Link to this sectionAPI en temps réel#
La création d'un assistant vocal implique généralement de transcrire l'audio en texte, de traiter le texte, puis de le reconvertir en audio pour lire la réponse. L'API Realtime d'OpenAI vise à gérer tout ce processus avec une seule requête API. En simplifiant le processus, l'API permet des conversations en temps réel avec l'IA.
Par exemple, un assistant vocal intégré à la Realtime API peut effectuer des actions spécifiques, comme passer une commande ou trouver des informations, en fonction des requêtes de l'utilisateur. L'API rend l'assistant vocal plus réactif et capable de s'adapter rapidement aux besoins des utilisateurs. La Realtime API est devenue disponible via une version bêta publique le 1er octobre, avec six voix. Le 30 octobre, cinq voix supplémentaires ont été ajoutées, pour un total de onze voix disponibles.

Fig 4. Un exemple d'utilisation de la Realtime API pour pratiquer des conversations dans une nouvelle langue.
Link to this sectionRéglage fin de ChatGPT pour les tâches de vision#
À l'origine, le modèle de langage de vision GPT-4o ne pouvait être réglé et personnalisé qu'en utilisant des datasets textuels uniquement. Maintenant, avec la sortie de l'API de réglage fin de la vision, les développeurs peuvent entraîner et personnaliser GPT-4o en utilisant des datasets d'images. Depuis sa sortie, le réglage fin de la vision est devenu un sujet d'intérêt majeur parmi les développeurs et les ingénieurs en vision par ordinateur.
Pour affiner les capacités de vision de GPT-4o, les développeurs peuvent utiliser des datasets d'images allant de seulement 100 images à 50 000 images. Après avoir vérifié que le dataset correspond au format requis par OpenAI, il peut être téléchargé sur la plateforme OpenAI, et le modèle peut être affiné pour des applications spécifiques.
Par exemple, Automat, une entreprise d'automatisation, a utilisé un dataset de captures d'écran pour entraîner GPT-4o afin d'être capable d'identifier les éléments de l'UI sur un écran en fonction d'une description. Cela aide à rationaliser l'automatisation robotique des processus (RPA) en facilitant l'interaction des bots avec les interfaces utilisateur. Au lieu de s'appuyer sur des coordonnées fixes ou des règles de sélection complexes, le modèle peut identifier les éléments de l'UI basés sur des descriptions simples, rendant les configurations d'automatisation plus adaptables et plus faciles à maintenir lorsque les interfaces changent.

Fig 5. Utilisation d'une version affinée du modèle GPT-4o pour détecter les éléments de l'UI.
Link to this sectionÉquité de ChatGPT et détection des biais#
Les préoccupations éthiques entourant les applications d'IA sont un sujet de conversation important à mesure que l'IA devient de plus en plus avancée. Comme les réponses de ChatGPT sont basées sur des invites fournies par l'utilisateur et des données disponibles sur Internet, il peut être difficile d'affiner son langage pour qu'il soit responsable tout le temps. Les rapports indiquent que les réponses de ChatGPT sont biaisées en matière de nom, de genre et de race. Pour résoudre ce problème, l'équipe interne d'OpenAI a mené un test d'équité à la première personne.
Les noms portent souvent des indices subtils sur notre culture et des facteurs géographiques. Dans la plupart des cas, ChatGPT ignorera les indices subtils dans les noms. Cependant, dans certains cas, les noms qui reflètent la race ou la culture conduisent à des réponses différentes de la part de ChatGPT, avec environ 1 % de celles-ci reflétant un langage nuisible. Éliminer les biais et le langage nuisible est une tâche difficile pour un modèle de langage. Cependant, en partageant ces résultats publiquement et en reconnaissant les limites du modèle, OpenAI aide les utilisateurs à affiner leurs invites pour obtenir des réponses plus neutres et impartiales.

Fig 6. Un exemple de réponses divergentes dues au nom de l'utilisateur.
Link to this sectionComprendre la recherche ChatGPT#
Lorsque ChatGPT a été lancé pour la première fois, il y avait des discussions dans la communauté de l'IA sur la question de savoir s'il pouvait remplacer la navigation Web traditionnelle. Aujourd'hui, de nombreux utilisateurs utilisent ChatGPT au lieu de Google Search.
La nouvelle mise à jour d'OpenAI, la fonctionnalité de recherche (Search), va encore plus loin. Avec Search, ChatGPT génère des réponses à jour et inclut des liens vers des sources pertinentes. Depuis le 31 octobre, la fonctionnalité Search est disponible pour tous les utilisateurs de ChatGPT Plus et Team, faisant fonctionner ChatGPT davantage comme un moteur de recherche alimenté par l'IA.

Fig 7. Un exemple d'utilisation de la nouvelle fonctionnalité Search de ChatGPT.
Link to this sectionLa route à suivre#
Les récentes mises à jour de ChatGPT se concentrent sur la manière de rendre l'IA plus utile, flexible et équitable. La nouvelle fonctionnalité Canvas aide les utilisateurs à travailler plus efficacement, tandis que le réglage fin de la vision permet aux développeurs de personnaliser les modèles pour mieux gérer les tâches visuelles. L'équité et la réduction des biais sont également des priorités clés, garantissant que l'IA fonctionne bien pour tout le monde, peu importe qui ils sont. Que tu sois un développeur qui affine des modèles ou que tu utilises simplement les dernières fonctionnalités, ChatGPT évolue pour répondre à un large éventail de besoins. Avec des capacités en temps réel, une intégration visuelle et un accent sur l'utilisation responsable, ces mises à jour construisent une expérience d'IA plus fiable pour tout le monde.
Explore davantage sur l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. Apprends-en plus sur les applications de l'IA dans la conduite autonome et les soins de santé.






