Nouvelles fonctionnalités de ChatGPT : Vision, recherche et plus

Depuis notre dernier examen des modèles o1 d'OpenAI en septembre (conçus pour améliorer le raisonnement), de nombreuses fonctionnalités nouvelles et passionnantes ont été ajoutées à ChatGPT. Certaines de ces nouveautés sont destinées aux développeurs, tandis que d'autres sont conçues pour améliorer l'expérience des utilisateurs. Dans l'ensemble, chaque mise à jour contribue à rendre les interactions avec ChatGPT plus intuitives et plus efficaces.

Des mises à jour telles que Canvas, conçu pour l'écriture et le codage collaboratifs, et le réglage fin des capacités de vision qui améliore la façon dont ChatGPT travaille avec les images, ont suscité beaucoup d'intérêt, encourageant les utilisateurs à explorer davantage de possibilités créatives. Parallèlement, les mises à jour techniques, comme les nouvelles API et les rapports de tests d'équité, abordent des aspects tels que l'intégration de modèles et les pratiques éthiques en matière d'IA . Entrons dans le vif du sujet et comprenons mieux les dernières fonctionnalités de ChatGPT d'OpenAI !

Présentation de la fonctionnalité Canvas d'OpenAI

Canvas est la première mise à jour majeure de l'interface utilisateur (UI) de ChatGPTdepuis son lancement. Il s'agit d'une nouvelle interface à deux écrans, avec des invites sur la barre latérale gauche et des réponses dans la fenêtre latérale droite. La nouvelle interface utilisateur élimine le flux de travail habituel d'une structure à écran unique de type chat et passe à une disposition à deux écrans qui convient à des fins multitâches pour stimuler la productivité.

Fig 1. Canvas apporte des mises à jour de l'interface utilisateur à ChatGPT.

‍

Avant l'introduction de Canvas, travailler avec des documents longs sur ChatGPT nécessitait de faire défiler l'écran vers le haut et vers le bas. Dans la nouvelle présentation, les invites sont affichées dans la barre latérale gauche, et le document texte ou l'extrait de code occupe la majeure partie de l'écran. Si nécessaire, vous pouvez même personnaliser la taille de la barre latérale gauche et de l'écran de sortie. Vous pouvez également sélectionner une partie du texte ou une section de code et modifier cette section spécifique sans altérer l'ensemble du document.

Fig 2. Modifier des sections spécifiques de texte à l'aide de Canvas.

‍

Si vous utilisez Canvas, vous remarquerez qu'il n'y a pas de bouton spécifique ou de bascule pour l'ouvrir sur l'interface ChatGPT . En revanche, lorsque vous travaillez avec le modèle GPT-4o, Canvas s'ouvre automatiquement s'il détecte que vous êtes en train d'éditer, d'écrire ou de coder. Pour les messages plus simples, il reste inactif. Si vous souhaitez l'ouvrir manuellement, vous pouvez utiliser des invites telles que "Open the Canvas" ou "Get me the Canvas layout".

Actuellement, Canvas est en version bêta et n'est disponible qu'avec GPT-4o. Cependant, OpenAI a mentionné que Canvas sera disponible pour tous les utilisateurs gratuits lorsqu'il sortira de la version bêta.

Mises à jour de l'API de ChatGPT

OpenAI a publié trois nouvelles mises à jour de l'API ChatGPT visant à améliorer l'efficacité, l'évolutivité et la polyvalence. Examinons de plus près chacune de ces mises à jour.

Distillation de modèle

En utilisant la fonctionnalité de Distillation de modèle via les API OpenAI, les développeurs peuvent utiliser les sorties de modèles avancés comme GPT-4o ou o1-preview pour améliorer la performance de modèles plus petits et rentables comme GPT-4o mini. La distillation de modèle est un processus qui implique l'entraînement de modèles plus petits pour imiter le comportement de modèles plus avancés, les rendant plus efficaces pour des tâches spécifiques.

Avant l'introduction de cette fonctionnalité, les développeurs devaient coordonner manuellement diverses tâches à l'aide de différents outils. Ces tâches comprenaient la génération d'ensembles de données, la mesure des performances des modèles et le réglage fin des modèles, ce qui rendait souvent le processus complexe et sujet aux erreurs. La mise à jour Model Distillation permet aux développeurs d'utiliser Stored Completions, un outil qui leur permet de générer automatiquement des ensembles de données en capturant et en stockant les paires entrée-sortie produites par des modèles avancés via l'API.

Une autre fonctionnalité de Model Distillation, Evals (actuellement en version bêta), permet de mesurer les performances d'un modèle sur des tâches spécifiques, sans avoir besoin de créer des scripts d'évaluation personnalisés ou d'utiliser des outils distincts. En utilisant des ensembles de données générés avec Stored Completions et en évaluant les performances avec Evals, les développeurs peuvent affiner leurs propres modèles GPT personnalisés.

Fig 3. Vous pouvez utiliser Evals pour mesurer les performances du modèle.

‍

Mise en cache des prompts

Souvent, lors de la construction d'applications d'IA, en particulier les chatbots, le même contexte (les informations de base ou l'historique des conversations précédentes nécessaires pour comprendre la requête actuelle) sera utilisé à plusieurs reprises pour plusieurs appels d'API. La mise en cache des invites permet aux développeurs de réutiliser les jetons d'entrée récemment utilisés (segments de texte que le modèle traite pour comprendre l'invite et générer une réponse), ce qui contribue à réduire les coûts et la latence.

Depuis le 1er octobre, OpenAI a automatiquement appliqué le Prompt Caching à ses modèles tels que GPT-4o, GPT-4o mini, o1-preview et o1-mini. Cela signifie que lorsque les développeurs utilisent l'API pour interagir avec un modèle avec un prompt long (plus de 1 024 tokens), le système enregistre les parties qu'il a déjà traitées.

De cette façon, si les mêmes invites ou des invites similaires sont réutilisées, le système peut éviter de recalculer ces parties. Le système met automatiquement en cache la partie la plus longue de l'invite qu'il a déjà rencontrée, en commençant par 1 024 jetons et en ajoutant des blocs de 128 jetons au fur et à mesure que l'invite s'allonge.

API en temps réel

La création d'un assistant vocal implique généralement de transcrire l'audio en texte, de traiter le texte, puis de le reconvertir en audio pour lire la réponse. L'API Realtime d'OpenAI vise à gérer l'ensemble de ce processus avec une seule requête API. En simplifiant le processus, l'API permet des conversations en temps réel avec l'IA.

Par exemple, un assistant vocal intégré à l'API Realtime peut effectuer des actions spécifiques, comme passer une commande ou trouver des informations, en fonction des demandes de l'utilisateur. L'API rend l'assistant vocal plus réactif et capable de s'adapter rapidement aux besoins des utilisateurs. L'API Realtime est devenue disponible en version bêta publique le 1er octobre, avec six voix. Le 30 octobre, cinq voix supplémentaires ont été ajoutées, portant le total à onze voix disponibles.

Fig 4. Un exemple d'utilisation de l'API Realtime pour pratiquer des conversations dans une nouvelle langue.

‍

Affiner ChatGPT pour les tâches de vision

À l'origine, le modèle de langage de vision GPT-4o ne pouvait être affiné et personnalisé qu'à l'aide d'ensembles de données textuels uniquement. Désormais, avec la publication de l'API d'affinage de la vision, les développeurs peuvent entraîner et personnaliser GPT-4o à l'aide d'ensembles de données d'images. Depuis sa sortie, l'affinage de la vision est devenu un sujet d'intérêt majeur parmi les développeurs et les ingénieurs en vision par ordinateur.

Pour affiner les capacités de vision de GPT-4o, les développeurs peuvent utiliser des ensembles de données d'images allant d'une centaine à 50 000 images. Après s'être assuré que l'ensemble de données correspond au format requis par OpenAI, il peut être téléchargé sur la plateforme OpenAI, et le modèle peut être affiné pour des applications spécifiques.

Par exemple, Automat, une société d'automatisation, a utilisé un ensemble de données de captures d'écran pour entraîner GPT-4o à être capable d'identifier les éléments de l'interface utilisateur sur un écran en fonction d'une description. Cela permet de rationaliser l'automatisation robotique des processus (RPA) en facilitant l'interaction des robots avec les interfaces utilisateur. Au lieu de s'appuyer sur des coordonnées fixes ou des règles de sélection complexes, le modèle peut identifier les éléments de l'interface utilisateur en fonction de descriptions simples, ce qui rend les configurations d'automatisation plus adaptables et plus faciles à maintenir lorsque les interfaces changent.

Fig. 5. Utilisation d'une version affinée du modèle GPT-4o pour detect éléments de l'interface utilisateur.

‍

ChatGPT équité et détection des préjugés

Les préoccupations éthiques entourant les applications de l'IA sont un sujet de conversation important à mesure que l'IA devient de plus en plus avancée. Comme les réponses de ChatGPTsont basées sur des invites fournies par l'utilisateur et des données disponibles sur Internet, il peut être difficile d'affiner son langage pour qu'il soit toujours responsable. Des rapports indiquent que les réponses deChatGPTsont biaisées en ce qui concerne le nom, le sexe et la race. Pour résoudre ce problème, l'équipe interne d'OpenAI a effectué un test d'équité à la première personne.

Les noms sont souvent porteurs d'indices subtils sur notre culture et nos facteurs géographiques. Dans la plupart des cas, ChatGPT ignore les indices subtils contenus dans les noms. Cependant, dans certains cas, les noms qui reflètent la race ou la culture donnent lieu à des réponses différentes de la part de ChatGPT, dont environ 1 % reflètent un langage préjudiciable. L'élimination des préjugés et du langage préjudiciable est une tâche difficile pour un modèle linguistique. Cependant, en partageant ces résultats publiquement et en reconnaissant les limites du modèle, l'OpenAI aide les utilisateurs à affiner leurs messages-guides afin d'obtenir des réponses plus neutres et impartiales.

Fig 6. Un exemple de réponses différentes en fonction du nom de l'utilisateur.

‍

Comprendre la recherche ChatGPT

Lorsque ChatGPT lancé pour la première fois, la communauté IA s'est demandé s'il pourrait remplacer la navigation Web traditionnelle. Aujourd'hui, de nombreux utilisateurs préfèrent ChatGPT Google .

La nouvelle mise à jour d'OpenAI, la fonction de recherche, va encore plus loin. Grâce à la fonction Recherche, ChatGPT génère des réponses actualisées et inclut des liens vers des sources pertinentes. Depuis le 31 octobre, la fonction de recherche est disponible pour tous les utilisateurs de ChatGPT Plus et Team, ce qui permet à ChatGPT de fonctionner davantage comme un moteur de recherche alimenté par l'IA.

Fig. 7. Exemple d'utilisation de la nouvelle fonction de recherche de ChatGPT.

‍

La voie à suivre

Les récentes mises à jour de ChatGPT visent à rendre l'IA plus utile, plus flexible et plus équitable. La nouvelle fonction Canvas aide les utilisateurs à travailler plus efficacement, tandis que le réglage fin de la vision permet aux développeurs de personnaliser les modèles pour mieux gérer les tâches visuelles. L'équité et la réduction des préjugés sont également des priorités essentielles, afin de garantir que l'IA fonctionne bien pour tout le monde, quel que soit l'utilisateur. Que vous soyez un développeur qui peaufine ses modèles ou que vous utilisiez simplement les dernières fonctionnalités, ChatGPT évolue pour répondre à un large éventail de besoins. Avec des capacités en temps réel, une intégration visuelle et un accent mis sur l'utilisation responsable, ces mises à jour construisent une expérience d'IA plus fiable et plus sûre pour tout le monde.

Explorez davantage l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. Apprenez-en davantage sur les applications de l'IA dans la conduite autonome et les soins de santé.

Les dernières mises à jour d'OpenAI : Canvas, Vision Fine-Tuning, et plus encore

Présentation de la fonctionnalité Canvas d'OpenAI