Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

Les dernières mises à jour d'OpenAI : Canvas, Vision Fine-Tuning, et plus encore

Abirami Vina

4 min de lecture

7 novembre 2024

Joignez-vous à nous pour examiner de plus près les récentes mises à jour de ChatGPT publiées par OpenAI. Nous explorerons Canvas, le réglage fin des capacités de vision et la plus récente fonctionnalité de recherche.

Depuis notre dernier examen des modèles o1 d'OpenAI en septembre (qui étaient conçus pour améliorer le raisonnement), de nombreuses nouvelles fonctionnalités intéressantes ont été ajoutées à ChatGPT. Certaines de ces versions sont destinées aux développeurs, et d'autres sont conçues pour affiner l'expérience utilisateur. Dans l'ensemble, chaque mise à niveau contribue à rendre les interactions avec ChatGPT plus intuitives et efficaces.

Des mises à jour comme Canvas, conçu pour l'écriture et le codage collaboratifs, et le fine-tuning pour les capacités de vision qui améliorent la façon dont ChatGPT fonctionne avec les images, ont suscité beaucoup d'intérêt, encourageant les utilisateurs à explorer des possibilités plus créatives. Parallèlement, les mises à niveau techniques, comme les nouvelles API et les rapports de tests d'équité, abordent des aspects tels que l'intégration des modèles et les pratiques d'IA éthique. Plongeons-nous et comprenons mieux les dernières fonctionnalités de ChatGPT d'OpenAI !

Présentation de la fonctionnalité Canvas d'OpenAI

Canvas est la première mise à jour majeure de l'interface utilisateur (UI) de ChatGPT depuis sa sortie. Il s'agit d'une nouvelle interface avec une disposition à deux écrans, des invites dans la barre latérale gauche et des réponses dans la fenêtre de droite. La nouvelle interface utilisateur élimine le flux de travail habituel d'une structure d'écran unique de type chat et passe à une disposition à deux écrans qui convient aux fins multitâches afin d'augmenter la productivité.

Fig 1. Canvas apporte des mises à jour de l'interface utilisateur à ChatGPT.

Avant l'introduction de Canvas, travailler avec des documents longs sur ChatGPT impliquait de faire défiler l'écran de haut en bas. Dans la nouvelle disposition, les invites sont affichées dans la barre latérale gauche, et le document texte ou l'extrait de code occupe la majeure partie de l'écran. Si nécessaire, vous pouvez même personnaliser la taille de la barre latérale gauche et de l'écran de sortie. De plus, vous pouvez sélectionner une partie du texte ou une section de code et modifier la section spécifique sans modifier l'ensemble du document.

Fig 2. Modifier des sections spécifiques de texte à l'aide de Canvas.

Si vous utilisez Canvas, vous remarquerez qu'il n'y a pas de bouton ou de commutateur spécifique pour l'ouvrir sur l'interface ChatGPT. Au lieu de cela, lorsque vous travaillez avec le modèle GPT-4o, Canvas s'ouvre automatiquement s'il détecte que vous êtes en train de modifier, d'écrire ou de coder. Pour les invites plus simples, il reste inactif. Si vous voulez l'ouvrir manuellement, vous pouvez utiliser des invites comme "Ouvrez le Canvas" ou "Montrez-moi la disposition du Canvas".

Actuellement, Canvas est en version bêta et n'est disponible qu'avec GPT-4o. Cependant, OpenAI a mentionné que Canvas sera disponible pour tous les utilisateurs gratuits lorsqu'il sortira de la version bêta.

Mises à jour de l'API de ChatGPT

OpenAI a publié trois nouvelles mises à jour de l'API ChatGPT visant à améliorer l'efficacité, l'évolutivité et la polyvalence. Examinons de plus près chacune de ces mises à jour.

Distillation de modèle

En utilisant la fonctionnalité de Distillation de modèle via les API OpenAI, les développeurs peuvent utiliser les sorties de modèles avancés comme GPT-4o ou o1-preview pour améliorer la performance de modèles plus petits et rentables comme GPT-4o mini. La distillation de modèle est un processus qui implique l'entraînement de modèles plus petits pour imiter le comportement de modèles plus avancés, les rendant plus efficaces pour des tâches spécifiques.

Avant l'introduction de cette fonctionnalité, les développeurs devaient coordonner manuellement diverses tâches à l'aide de différents outils. Ces tâches comprenaient la génération d'ensembles de données, la mesure des performances des modèles et le réglage fin des modèles, ce qui rendait souvent le processus complexe et sujet aux erreurs. La mise à jour Model Distillation permet aux développeurs d'utiliser Stored Completions, un outil qui leur permet de générer automatiquement des ensembles de données en capturant et en stockant les paires entrée-sortie produites par des modèles avancés via l'API.

Une autre fonctionnalité de Model Distillation, Evals (actuellement en version bêta), permet de mesurer les performances d'un modèle sur des tâches spécifiques, sans avoir besoin de créer des scripts d'évaluation personnalisés ou d'utiliser des outils distincts. En utilisant des ensembles de données générés avec Stored Completions et en évaluant les performances avec Evals, les développeurs peuvent affiner leurs propres modèles GPT personnalisés.

Fig 3. Vous pouvez utiliser Evals pour mesurer les performances du modèle.

Mise en cache des prompts

Souvent, lors de la construction d'applications d'IA, en particulier les chatbots, le même contexte (les informations de base ou l'historique des conversations précédentes nécessaires pour comprendre la requête actuelle) sera utilisé à plusieurs reprises pour plusieurs appels d'API. La mise en cache des invites permet aux développeurs de réutiliser les jetons d'entrée récemment utilisés (segments de texte que le modèle traite pour comprendre l'invite et générer une réponse), ce qui contribue à réduire les coûts et la latence.

Depuis le 1er octobre, OpenAI a automatiquement appliqué le Prompt Caching à ses modèles tels que GPT-4o, GPT-4o mini, o1-preview et o1-mini. Cela signifie que lorsque les développeurs utilisent l'API pour interagir avec un modèle avec un prompt long (plus de 1 024 tokens), le système enregistre les parties qu'il a déjà traitées. 

De cette façon, si les mêmes invites ou des invites similaires sont réutilisées, le système peut éviter de recalculer ces parties. Le système met automatiquement en cache la partie la plus longue de l'invite qu'il a déjà rencontrée, en commençant par 1 024 jetons et en ajoutant des blocs de 128 jetons au fur et à mesure que l'invite s'allonge.

API en temps réel

La création d'un assistant vocal implique généralement de transcrire l'audio en texte, de traiter le texte, puis de le reconvertir en audio pour lire la réponse. L'API Realtime d'OpenAI vise à gérer l'ensemble de ce processus avec une seule requête API. En simplifiant le processus, l'API permet des conversations en temps réel avec l'IA. 

Par exemple, un assistant vocal intégré à l'API Realtime peut effectuer des actions spécifiques, comme passer une commande ou trouver des informations, en fonction des demandes de l'utilisateur. L'API rend l'assistant vocal plus réactif et capable de s'adapter rapidement aux besoins des utilisateurs. L'API Realtime est devenue disponible en version bêta publique le 1er octobre, avec six voix. Le 30 octobre, cinq voix supplémentaires ont été ajoutées, portant le total à onze voix disponibles.

Fig 4. Un exemple d'utilisation de l'API Realtime pour pratiquer des conversations dans une nouvelle langue.

Affiner ChatGPT pour les tâches de vision

À l'origine, le modèle de langage de vision GPT-4o ne pouvait être affiné et personnalisé qu'à l'aide d'ensembles de données textuels uniquement. Désormais, avec la publication de l'API d'affinage de la vision, les développeurs peuvent entraîner et personnaliser GPT-4o à l'aide d'ensembles de données d'images. Depuis sa sortie, l'affinage de la vision est devenu un sujet d'intérêt majeur parmi les développeurs et les ingénieurs en vision par ordinateur.

Pour affiner les capacités de vision de GPT-4o, les développeurs peuvent utiliser des ensembles de données d'images allant d'une centaine à 50 000 images. Après s'être assuré que l'ensemble de données correspond au format requis par OpenAI, il peut être téléchargé sur la plateforme OpenAI, et le modèle peut être affiné pour des applications spécifiques. 

Par exemple, Automat, une société d'automatisation, a utilisé un ensemble de données de captures d'écran pour entraîner GPT-4o à être capable d'identifier les éléments de l'interface utilisateur sur un écran en fonction d'une description. Cela permet de rationaliser l'automatisation robotique des processus (RPA) en facilitant l'interaction des robots avec les interfaces utilisateur. Au lieu de s'appuyer sur des coordonnées fixes ou des règles de sélection complexes, le modèle peut identifier les éléments de l'interface utilisateur en fonction de descriptions simples, ce qui rend les configurations d'automatisation plus adaptables et plus faciles à maintenir lorsque les interfaces changent.

Fig 5. Utilisation d'une version fine-tuned du modèle GPT-4o pour détecter les éléments de l'interface utilisateur.

Détection de l'équité et des biais avec ChatGPT

Les préoccupations éthiques entourant les applications de l'IA sont un sujet de conversation important à mesure que l'IA devient de plus en plus avancée. Étant donné que les réponses de ChatGPT sont basées sur les invites fournies par l'utilisateur et les données disponibles sur Internet, il peut être difficile d'affiner son langage pour qu'il soit responsable en permanence. Des rapports indiquent que les réponses de ChatGPT sont biaisées en fonction du nom, du sexe et de la race. Pour résoudre ce problème, l'équipe interne d'OpenAI a mené un test d'équité à la première personne.

Les noms véhiculent souvent des indices subtils sur notre culture et des facteurs géographiques. Dans la plupart des cas, ChatGPT ignorera les indices subtils contenus dans les noms. Cependant, dans certains cas, les noms qui reflètent la race ou la culture entraînent des réponses différentes de la part de ChatGPT, dont environ 1 % reflètent un langage nuisible. L'élimination des biais et du langage nuisible est une tâche difficile pour un modèle linguistique. Cependant, en partageant publiquement ces résultats et en reconnaissant les limites du modèle, OpenAI aide les utilisateurs à affiner leurs invites afin d'obtenir des réponses plus neutres et impartiales. 

Fig 6. Un exemple de réponses différentes en fonction du nom de l'utilisateur.

Comprendre la recherche ChatGPT

Lors du premier lancement de ChatGPT, la communauté de l'IA s'est demandée s'il pouvait remplacer la navigation web traditionnelle. Aujourd'hui, de nombreux utilisateurs utilisent ChatGPT au lieu de Google Search

La nouvelle mise à jour d'OpenAI, la fonctionnalité Search, va encore plus loin. Avec Search, ChatGPT génère des réponses à jour et inclut des liens vers des sources pertinentes. Depuis le 31 octobre, la fonctionnalité Search est disponible pour tous les utilisateurs de ChatGPT Plus et Team, ce qui fait de ChatGPT un moteur de recherche basé sur l'IA.

Fig 7. Exemple d'utilisation de la nouvelle fonctionnalité de recherche de ChatGPT.

La voie à suivre

Les récentes mises à jour de ChatGPT visent à rendre l'IA plus utile, flexible et équitable. La nouvelle fonctionnalité Canvas aide les utilisateurs à travailler plus efficacement, tandis que le fine-tuning de la vision permet aux développeurs de personnaliser les modèles pour mieux gérer les tâches visuelles. L'amélioration de l'équité et la réduction des biais sont également des priorités essentielles, garantissant que l'IA fonctionne bien pour tous, quels qu'ils soient. Que vous soyez un développeur affinant des modèles ou que vous utilisiez simplement les dernières fonctionnalités, ChatGPT évolue pour répondre à un large éventail de besoins. Grâce à des capacités en temps réel, à l'intégration visuelle et à un accent mis sur une utilisation responsable, ces mises à jour construisent une expérience d'IA plus fiable pour tous.

Explorez davantage l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. Apprenez-en davantage sur les applications de l'IA dans la conduite autonome et les soins de santé.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers