Les dernières mises à jour d'OpenAI : Canvas, Vision Fine-Tuning, et plus encore

Abirami Vina

4 min lire

7 novembre 2024

Rejoignez-nous pour examiner de plus près les récentes mises à jour de ChatGPT publiées par OpenAI. Nous explorerons Canvas, la mise au point des capacités de vision et la dernière fonctionnalité de recherche.

Depuis notre dernier examen des modèles o1 d'OpenAI en septembre (conçus pour améliorer le raisonnement), de nombreuses fonctionnalités nouvelles et passionnantes ont été ajoutées à ChatGPT. Certaines de ces nouveautés sont destinées aux développeurs, tandis que d'autres sont conçues pour améliorer l'expérience des utilisateurs. Dans l'ensemble, chaque mise à jour contribue à rendre les interactions avec ChatGPT plus intuitives et plus efficaces.

Des mises à jour telles que Canvas, conçu pour l'écriture et le codage collaboratifs, et le réglage fin des capacités de vision qui améliore la façon dont ChatGPT travaille avec les images, ont suscité beaucoup d'intérêt, encourageant les utilisateurs à explorer davantage de possibilités créatives. Parallèlement, les mises à jour techniques, comme les nouvelles API et les rapports de tests d'équité, abordent des aspects tels que l'intégration de modèles et les pratiques éthiques en matière d'IA . Entrons dans le vif du sujet et comprenons mieux les dernières fonctionnalités de ChatGPT d'OpenAI !

Aperçu de la fonction "canvas" d'OpenAI

Canvas est la première mise à jour majeure de l'interface utilisateur (UI) de ChatGPT depuis son lancement. Il s'agit d'une nouvelle interface à deux écrans, avec des invites sur la barre latérale gauche et des réponses dans la fenêtre latérale droite. La nouvelle interface utilisateur élimine le flux de travail habituel d'une structure à écran unique de type chat et passe à une disposition à deux écrans qui convient à des fins multitâches pour stimuler la productivité.

Fig 1. Canvas apporte des mises à jour de l'interface utilisateur à ChatGPT.

Avant l'introduction de Canvas, travailler avec des documents longs sur ChatGPT nécessitait de faire défiler l'écran vers le haut et vers le bas. Dans la nouvelle présentation, les invites sont affichées dans la barre latérale gauche, et le document texte ou l'extrait de code occupe la majeure partie de l'écran. Si nécessaire, vous pouvez même personnaliser la taille de la barre latérale gauche et de l'écran de sortie. Vous pouvez également sélectionner une partie du texte ou une section de code et modifier cette section spécifique sans altérer l'ensemble du document.

Fig 2. Modifier des sections spécifiques de texte à l'aide de Canvas.

Si vous utilisez Canvas, vous remarquerez qu'il n'y a pas de bouton spécifique ou de bascule pour l'ouvrir sur l'interface ChatGPT. En revanche, lorsque vous travaillez avec le modèle GPT-4o, Canvas s'ouvre automatiquement s'il détecte que vous êtes en train d'éditer, d'écrire ou de coder. Pour les messages plus simples, il reste inactif. Si vous souhaitez l'ouvrir manuellement, vous pouvez utiliser des invites telles que "Open the Canvas" ou "Get me the Canvas layout".

Actuellement, Canvas est en version bêta et n'est disponible qu'avec GPT-4o. Cependant, OpenAI a indiqué que Canvas sera disponible pour tous les utilisateurs gratuits lorsqu'il sortira de la version bêta.

Mises à jour de l'API de ChatGPT

OpenAI a publié trois nouvelles mises à jour de l'API ChatGPT visant à améliorer l'efficacité, l'évolutivité et la polyvalence. Examinons de plus près chacune de ces mises à jour.

Distillation modèle

En utilisant la fonction de distillation de modèle via les API OpenAI, les développeurs peuvent utiliser les résultats de modèles avancés tels que GPT-4o ou o1-preview pour améliorer les performances de modèles plus petits et rentables tels que GPT-4o mini. La distillation de modèles est un processus qui implique l'entraînement de modèles plus petits pour imiter le comportement de modèles plus avancés, ce qui les rend plus efficaces pour des tâches spécifiques.

Avant l'introduction de cette fonctionnalité, les développeurs devaient coordonner manuellement une série de tâches à l'aide de différents outils. Ces tâches comprenaient la génération d'ensembles de données, la mesure des performances du modèle et l'ajustement des modèles, ce qui rendait souvent le processus complexe et sujet aux erreurs. La mise à jour de Model Distillation permet aux développeurs d'utiliser Stored Completions, un outil qui leur permet de générer automatiquement des ensembles de données en capturant et en stockant les paires d'entrées-sorties produites par des modèles avancés via l'API.

Une autre fonctionnalité de Model Distillation, Evals (actuellement en version bêta), permet de mesurer les performances d' un modèle sur des tâches spécifiques, sans qu'il soit nécessaire de créer des scripts d'évaluation personnalisés ou d'utiliser des outils distincts. En utilisant des ensembles de données générés avec Stored Completions et en évaluant les performances avec Evals, les développeurs peuvent affiner leurs propres modèles GPT personnalisés.

Fig. 3. Vous pouvez utiliser les Evals pour mesurer la performance du modèle.

Mise en cache de l'invite

Souvent, lors de la création d'applications d'IA, en particulier de chatbots, le même contexte (les informations de base ou l'historique des conversations précédentes nécessaires pour comprendre la demande actuelle) sera utilisé de manière répétée pour plusieurs appels d'API. La mise en cache des invites permet aux développeurs de réutiliser les jetons d'entrée récemment utilisés (segments de texte que le modèle traite pour comprendre l'invite et générer une réponse), ce qui contribue à réduire les coûts et la latence.

Depuis le 1er octobre, OpenAI applique automatiquement la mise en cache des invites à ses modèles tels que GPT-4o, GPT-4o mini, o1-preview et o1-mini. Cela signifie que lorsque les développeurs utilisent l'API pour interagir avec un modèle comportant une longue invite (plus de 1 024 tokens), le système enregistre les parties qu'il a déjà traitées. 

Ainsi, si les mêmes invites ou des invites similaires sont utilisées à nouveau, il est possible de ne pas recalculer ces parties. Le système met automatiquement en cache la partie la plus longue de l'invite qu'il a déjà rencontrée, en commençant par 1 024 tokens et en ajoutant des morceaux de 128 tokens au fur et à mesure que l'invite s'allonge.

API en temps réel

La création d'un assistant vocal implique généralement de transcrire l'audio en texte, de traiter le texte, puis de le reconvertir en audio pour jouer la réponse. L'API Realtime d'OpenAI vise à gérer l'ensemble de ce processus en une seule demande d'API. En simplifiant le processus, l'API permet des conversations en temps réel avec l'IA. 

Par exemple, un assistant vocal intégré à l'API Realtime peut effectuer des actions spécifiques, comme passer une commande ou trouver des informations, en fonction des demandes de l'utilisateur. L'API rend l'assistant vocal plus réactif et capable de s'adapter rapidement aux besoins des utilisateurs. L'API Realtime est devenue disponible en version bêta publique le 1er octobre, avec six voix. Le 30 octobre, cinq voix supplémentaires ont été ajoutées, ce qui porte à onze le nombre total de voix disponibles.

Fig. 4. Exemple d'utilisation de l'API en temps réel pour s'entraîner aux conversations dans une nouvelle langue.

Affiner ChatGPT pour les tâches de vision

À l'origine, le modèle de langage visuel GPT-4o ne pouvait être affiné et personnalisé qu'à l'aide d'ensembles de données textuelles. Aujourd'hui, avec la publication de l'API de réglage fin de la vision, les développeurs peuvent former et personnaliser GPT-4o en utilisant des ensembles de données d'images. Depuis sa sortie, le réglage fin de la vision est devenu un sujet d'intérêt majeur pour les développeurs et les ingénieurs en vision par ordinateur.

Pour affiner les capacités de vision de GPT-4o, les développeurs peuvent utiliser des ensembles de données d'images allant de 100 à 50 000 images. Après s'être assuré que l'ensemble de données correspond au format requis par OpenAI, il peut être téléchargé sur la plateforme Openai et le modèle peut être affiné pour des applications spécifiques. 

Par exemple, Automat, une entreprise d'automatisation, a utilisé un ensemble de données de captures d'écran pour former GPT-4o à identifier les éléments de l'interface utilisateur sur un écran à partir d'une description. Cela permet de rationaliser l'automatisation des processus robotiques (RPA) en facilitant l'interaction des robots avec les interfaces utilisateur. Au lieu de s'appuyer sur des coordonnées fixes ou des règles de sélection complexes, le modèle peut identifier les éléments de l'interface utilisateur sur la base de simples descriptions, ce qui rend les configurations d'automatisation plus adaptables et plus faciles à maintenir lorsque les interfaces changent.

Fig. 5. Utilisation d'une version affinée du modèle GPT-4o pour détecter les éléments de l'interface utilisateur.

ChatGPT : équité et détection des biais

Les préoccupations éthiques entourant les applications de l'IA sont un sujet de conversation important à mesure que l'IA devient de plus en plus avancée. Comme les réponses de ChatGPT sont basées sur des invites fournies par l'utilisateur et des données disponibles sur Internet, il peut être difficile d'affiner son langage pour qu'il soit toujours responsable. Des rapports indiquent que les réponses de ChatGPT sont biaisées en ce qui concerne le nom, le sexe et la race. Pour résoudre ce problème, l'équipe interne d'OpenAI a réalisé un test d'équité à la première personne.

Les noms sont souvent porteurs d'indices subtils sur notre culture et nos facteurs géographiques. Dans la plupart des cas, ChatGPT ignore les indices subtils contenus dans les noms. Cependant, dans certains cas, les noms qui reflètent la race ou la culture donnent lieu à des réponses différentes de la part de ChatGPT, dont environ 1 % reflètent un langage préjudiciable. L'élimination des préjugés et du langage préjudiciable est une tâche difficile pour un modèle linguistique. Cependant, en partageant ces résultats publiquement et en reconnaissant les limites du modèle, l'OpenAI aide les utilisateurs à affiner leurs messages-guides afin d'obtenir des réponses plus neutres et impartiales. 

Fig. 6. Exemple de réponses différentes en fonction du nom de l'utilisateur.

Comprendre la recherche ChatGPT

Lorsque ChatGPT a été lancé pour la première fois, la communauté de l'IA s'est demandé s'il pouvait remplacer la navigation traditionnelle sur le web. Aujourd'hui, de nombreux utilisateurs utilisent ChatGPT à la place de Google Search

La nouvelle mise à jour d'OpenAI, la fonction de recherche, va encore plus loin. Grâce à la fonction Recherche, ChatGPT génère des réponses actualisées et inclut des liens vers des sources pertinentes. Depuis le 31 octobre, la fonction de recherche est disponible pour tous les utilisateurs de ChatGPT Plus et Team, ce qui permet à ChatGPT de fonctionner davantage comme un moteur de recherche alimenté par l'IA.

Fig. 7. Exemple d'utilisation de la nouvelle fonction de recherche de ChatGPT.

Le chemin à parcourir

Les récentes mises à jour de ChatGPT visent à rendre l'IA plus utile, plus flexible et plus équitable. La nouvelle fonction Canvas aide les utilisateurs à travailler plus efficacement, tandis que le réglage fin de la vision permet aux développeurs de personnaliser les modèles pour mieux gérer les tâches visuelles. L'équité et la réduction des préjugés sont également des priorités essentielles, afin de garantir que l'IA fonctionne bien pour tout le monde, quel que soit l'utilisateur. Que vous soyez un développeur qui peaufine ses modèles ou que vous utilisiez simplement les dernières fonctionnalités, ChatGPT évolue pour répondre à un large éventail de besoins. Avec des capacités en temps réel, une intégration visuelle et un accent mis sur l'utilisation responsable, ces mises à jour construisent une expérience de l'IA plus fiable et plus sûre pour tout le monde.

Pour en savoir plus sur l'IA, visitez notre dépôt GitHub et rejoignez notre communauté. En savoir plus sur les applications de l'IA dans les domaines de la conduite autonome et de la santé.

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers