Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Die neuesten OpenAI-Updates: Canvas, Vision Fine-Tuning und mehr

Abirami Vina

4 Min. Lesezeit

7. November 2024

Begleiten Sie uns, wenn wir uns die jüngsten ChatGPT-Updates von OpenAI genauer ansehen. Wir werden Canvas, Feinabstimmung für Vision-Funktionen und die neueste Suchfunktion untersuchen.

Nachdem wir uns im September das letzte Mal mit den o1-Modellen von OpenAI befasst haben (die entwickelt wurden, um das logische Denken zu verbessern), wurden ChatGPT viele neue und aufregende Funktionen hinzugefügt. Einige dieser Releases richten sich an Entwickler, andere dienen der Verfeinerung der User Experience. Insgesamt trägt jedes Upgrade dazu bei, die Interaktionen mit ChatGPT intuitiver und effektiver zu gestalten.

Aktualisierungen wie Canvas, das für kollaboratives Schreiben und Programmieren entwickelt wurde, und Fine-Tuning für Vision-Funktionen, die die Funktionsweise von ChatGPT mit Bildern verbessern, haben großes Interesse geweckt und die Benutzer ermutigt, kreativere Möglichkeiten zu erkunden. Technische Upgrades wie neue APIs und Fairness-Testberichte befassen sich unterdessen mit Aspekten wie der Integration von Modellen und ethischen KI-Praktiken. Lassen Sie uns eintauchen und die neuesten ChatGPT-Funktionen von OpenAI besser verstehen!

Ein Überblick über die Canvas-Funktion von OpenAI

Canvas ist das erste größere Update der Benutzeroberfläche (UI) von ChatGPT seit seiner Veröffentlichung. Es handelt sich um eine neue Benutzeroberfläche mit einem Zwei-Bildschirm-Layout, Prompts in der linken Seitenleiste und Antworten im rechten Fenster. Die neue Benutzeroberfläche eliminiert den üblichen Workflow einer Chat-ähnlichen Einzelbildschirmstruktur und geht zu einem Zwei-Bildschirm-Layout über, das sich für Multitasking-Zwecke eignet, um die Produktivität zu steigern.

Abb. 1. Canvas bringt UI-Updates für ChatGPT.

Bevor Canvas eingeführt wurde, bedeutete die Arbeit mit langen Dokumenten auf ChatGPT, dass man ziemlich viel auf und ab scrollen musste. Im neuen Layout werden die Prompts in der linken Seitenleiste angezeigt, und das Textdokument oder der Code-Ausschnitt nimmt den größten Teil des Bildschirms ein. Bei Bedarf können Sie sogar die Größe der linken Seitenleiste und des Ausgabebildschirms anpassen. Außerdem können Sie einen Teil des Textes oder einen Abschnitt des Codes auswählen und den jeweiligen Abschnitt bearbeiten, ohne das gesamte Dokument zu verändern.

Abb. 2. Bearbeiten spezifischer Textabschnitte mit Canvas.

Wenn Sie Canvas verwenden, werden Sie feststellen, dass es keine spezielle Schaltfläche oder Umschaltfläche gibt, um es auf der ChatGPT-Oberfläche zu öffnen. Wenn Sie mit dem GPT-4o-Modell arbeiten, öffnet sich Canvas stattdessen automatisch, wenn es erkennt, dass Sie bearbeiten, schreiben oder programmieren. Bei einfacheren Eingabeaufforderungen bleibt es inaktiv. Wenn Sie es manuell öffnen möchten, können Sie Eingabeaufforderungen wie "Öffne die Leinwand" oder "Zeig mir das Leinwand-Layout" verwenden.

Derzeit befindet sich Canvas in der Beta-Phase und ist nur mit GPT-4o verfügbar. OpenAI hat jedoch erwähnt, dass Canvas für alle kostenlosen Benutzer verfügbar sein wird, sobald es die Beta-Phase verlässt.

API-Aktualisierungen von ChatGPT

OpenAI hat drei neue ChatGPT-API-Updates veröffentlicht, die auf die Verbesserung von Effizienz, Skalierbarkeit und Vielseitigkeit abzielen. Werfen wir einen genaueren Blick auf jedes dieser Updates.

Modelldistillation

Durch die Nutzung der Funktion Model Distillation über die OpenAI APIs können Entwickler die Ausgaben von fortschrittlichen Modellen wie GPT-4o oder o1-preview nutzen, um die Performance von kleineren, kosteneffizienten Modellen wie GPT-4o mini zu verbessern. Model Distillation ist ein Prozess, bei dem kleinere Modelle trainiert werden, um das Verhalten von fortschrittlicheren Modellen nachzubilden, wodurch sie für spezifische Aufgaben effizienter werden.

Vor der Einführung dieser Funktion mussten Entwickler eine Vielzahl von Aufgaben manuell mit verschiedenen Tools koordinieren. Zu diesen Aufgaben gehörten das Erstellen von Datensätzen, das Messen der Modellleistung und das Fine-Tuning von Modellen, was den Prozess oft komplex und fehleranfällig machte. Mit dem Model Distillation Update können Entwickler Stored Completions verwenden, ein Tool, mit dem sie automatisch Datensätze generieren können, indem sie die von fortschrittlichen Modellen über die API erzeugten Eingabe-Ausgabe-Paare erfassen und speichern.

Eine weitere Funktion von Model Distillation, Evals (derzeit in der Beta-Phase), hilft zu messen, wie gut ein Modell bei bestimmten Aufgaben funktioniert, ohne dass benutzerdefinierte Evaluierungs-Skripte erstellt oder separate Tools verwendet werden müssen. Durch die Verwendung von Datensätzen, die mit Stored Completions generiert und mit Evals die Leistung bewertet wurde, können Entwickler ihre eigenen benutzerdefinierten GPT-Modelle feinabstimmen.

Abb. 3. Sie können Evals verwenden, um die Modellleistung zu messen.

Prompt-Caching

Beim Aufbau von KI-Anwendungen, insbesondere von Chatbots, wird oft derselbe Kontext (die Hintergrundinformationen oder der bisherige Gesprächsverlauf, die zum Verständnis der aktuellen Anfrage erforderlich sind) wiederholt für mehrere API-Aufrufe verwendet. Prompt-Caching ermöglicht es Entwicklern, kürzlich verwendete Eingabe-Token (Textsegmente, die das Modell verarbeitet, um den Prompt zu verstehen und eine Antwort zu generieren) wiederzuverwenden, was zur Reduzierung von Kosten und Latenz beiträgt.

Seit dem 1. Oktober wendet OpenAI automatisch Prompt Caching auf seine Modelle wie GPT-4o, GPT-4o mini, o1-preview und o1-mini an. Das bedeutet, dass das System die bereits verarbeiteten Teile speichert, wenn Entwickler die API verwenden, um mit einem Modell mit einem langen Prompt (über 1.024 Token) zu interagieren. 

Auf diese Weise kann das System die Neuberechnung dieser Teile überspringen, wenn dieselben oder ähnliche Prompts erneut verwendet werden. Das System speichert automatisch den längsten Teil des Prompts, dem es zuvor begegnet ist, beginnend mit 1.024 Token und fügt in Blöcken von 128 Token hinzu, wenn der Prompt länger wird.

Echtzeit-API

Die Erstellung eines Sprachassistenten erfordert in der Regel die Transkription von Audio in Text, die Verarbeitung des Textes und die anschließende Rückumwandlung in Audio zur Wiedergabe der Antwort. Die Realtime API von OpenAI zielt darauf ab, diesen gesamten Prozess mit einer einzigen API-Anfrage abzuwickeln. Durch die Vereinfachung des Prozesses ermöglicht die API Echtzeit-Konversationen mit KI. 

Ein Sprachassistent, der in die Realtime API integriert ist, kann beispielsweise basierend auf Benutzeranfragen bestimmte Aktionen ausführen, wie z. B. eine Bestellung aufgeben oder Informationen finden. Die API macht den Sprachassistenten reaktionsschneller und ermöglicht es ihm, sich schnell an die Bedürfnisse der Benutzer anzupassen. Die Realtime API wurde am 1. Oktober als öffentliche Betaversion mit sechs Stimmen veröffentlicht. Am 30. Oktober wurden fünf weitere Stimmen hinzugefügt, so dass insgesamt elf Stimmen zur Verfügung stehen.

Abb. 4. Ein Beispiel für die Verwendung der Realtime API zum Üben von Konversationen in einer neuen Sprache.

Feinabstimmung von ChatGPT für Bildverarbeitungsaufgaben

Ursprünglich konnte das GPT-4o Vision Language Model nur mit rein textbasierten Datensätzen feinabgestimmt und angepasst werden. Mit der Veröffentlichung der Vision Fine-Tuning API können Entwickler GPT-4o nun mithilfe von Bilddatensätzen trainieren und anpassen. Seit seiner Veröffentlichung hat sich Vision Fine-Tuning zu einem wichtigen Thema für Entwickler und Computer-Vision-Ingenieure entwickelt.

Um die Vision-Fähigkeiten von GPT-4o zu optimieren, können Entwickler Bilddatensätze verwenden, die von nur 100 bis zu 50.000 Bildern reichen. Nachdem sichergestellt wurde, dass das Dataset dem von OpenAI geforderten Format entspricht, kann es auf die OpenAI-Plattform hochgeladen und das Modell für spezifische Anwendungen optimiert werden. 

Beispielsweise verwendete Automat, ein Automatisierungsunternehmen, einen Datensatz von Screenshots, um GPT-4o zu trainieren, um UI-Elemente auf einem Bildschirm anhand einer Beschreibung zu identifizieren. Dies trägt zur Rationalisierung der Robotic Process Automation (RPA) bei, indem es Bots erleichtert, mit Benutzeroberflächen zu interagieren. Anstatt sich auf feste Koordinaten oder komplexe Selektorregeln zu verlassen, kann das Modell UI-Elemente anhand einfacher Beschreibungen identifizieren, wodurch Automatisierungseinrichtungen anpassungsfähiger und bei Änderungen der Schnittstellen einfacher zu warten sind.

Abb. 5. Verwenden einer feinabgestimmten Version des GPT-4o-Modells zur Erkennung von UI-Elementen.

ChatGPT Fairness und Bias Erkennung

Ethische Bedenken im Zusammenhang mit KI-Anwendungen sind ein wichtiges Gesprächsthema, da KI immer fortschrittlicher wird. Da die Antworten von ChatGPT auf benutzerdefinierten Eingabeaufforderungen und im Internet verfügbaren Daten basieren, kann es eine Herausforderung sein, die Sprache von ChatGPT so zu verfeinern, dass sie jederzeit verantwortungsvoll ist. Berichten zufolge sind die Antworten von ChatGPT in Bezug auf Namen, Geschlecht und Rasse voreingenommen. Um dieses Problem anzugehen, führte das interne Team von OpenAI einen Fairness-Test aus der Ich-Perspektive durch.

Namen enthalten oft subtile Hinweise auf unsere Kultur und geografische Faktoren. In den meisten Fällen ignoriert ChatGPT die subtilen Hinweise in den Namen. In einigen Fällen führen Namen, die Rasse oder Kultur widerspiegeln, jedoch zu unterschiedlichen Antworten von ChatGPT, wobei etwa 1 % davon schädliche Sprache widerspiegeln. Die Beseitigung von Vorurteilen und schädlicher Sprache ist eine schwierige Aufgabe für ein Sprachmodell. Indem OpenAI diese Ergebnisse jedoch öffentlich macht und die Einschränkungen des Modells anerkennt, hilft es den Benutzern, ihre Prompts zu verfeinern, um neutralere, unvoreingenommene Antworten zu erhalten. 

Abb. 6. Ein Beispiel für unterschiedliche Antworten aufgrund des Namens des Benutzers.

ChatGPT-Suche verstehen

Als ChatGPT zum ersten Mal auf den Markt kam, gab es in der KI-Community Diskussionen darüber, ob es das traditionelle Surfen im Internet ersetzen könnte. Inzwischen nutzen viele User ChatGPT anstelle der Google-Suche

Das neue Update von OpenAI, die Suchfunktion, geht noch einen Schritt weiter. Mit der Suchfunktion generiert ChatGPT aktuelle Antworten und fügt Links zu relevanten Quellen hinzu. Seit dem 31. Oktober steht die Suchfunktion allen ChatGPT Plus- und Team-Nutzern zur Verfügung, wodurch ChatGPT eher wie eine KI-gestützte Suchmaschine funktioniert.

Abb. 7. Ein Beispiel für die Verwendung der neuen Suchfunktion von ChatGPT.

Der weitere Weg

Die neuesten Updates von ChatGPT konzentrieren sich darauf, KI nützlicher, flexibler und fairer zu gestalten. Die neue Canvas-Funktion hilft Nutzern, effizienter zu arbeiten, während die Vision-Feinabstimmung es Entwicklern ermöglicht, Modelle so anzupassen, dass sie visuelle Aufgaben besser bewältigen. Die Berücksichtigung von Fairness und die Reduzierung von Verzerrungen sind ebenfalls wichtige Prioritäten, um sicherzustellen, dass KI für alle gut funktioniert, unabhängig davon, wer sie sind. Egal, ob Sie als Entwickler Modelle feinabstimmen oder einfach nur die neuesten Funktionen nutzen, ChatGPT entwickelt sich weiter, um eine breite Palette von Bedürfnissen zu erfüllen. Mit Echtzeitfunktionen, visueller Integration und einem Fokus auf verantwortungsvolle Nutzung schaffen diese Updates ein vertrauenswürdigeres und zuverlässigeres KI-Erlebnis für alle.

Erfahren Sie mehr über KI, indem Sie unser GitHub-Repository besuchen und unserer Community beitreten. Erfahren Sie mehr über KI-Anwendungen in den Bereichen selbstfahrende Systeme und Gesundheitswesen.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert