Die neuesten OpenAI-Updates: Canvas, Vision Fine-Tuning und mehr
Sei dabei, wenn wir uns die kürzlich von OpenAI veröffentlichten ChatGPT-Updates genauer ansehen. Wir erkunden Canvas, Fine-Tuning für Vision-Fähigkeiten und die neueste Suchfunktion.

Nachdem wir uns zuletzt im September die OpenAI-Modelle o1 angesehen haben (die darauf ausgelegt sind, das Schlussfolgerungsvermögen zu verbessern), wurden viele neue und spannende Funktionen zu ChatGPT hinzugefügt. Einige dieser Versionen richten sich an Entwickler, während andere darauf ausgelegt sind, die Benutzererfahrung zu verfeinern. Insgesamt trägt jedes Upgrade dazu bei, die Interaktion mit ChatGPT intuitiver und effektiver zu gestalten.
Updates wie Canvas, das für kollaboratives Schreiben und Programmieren konzipiert ist, sowie Fine-Tuning für Vision-Fähigkeiten, das die Art und Weise verbessert, wie ChatGPT mit Bildern arbeitet, haben großes Interesse geweckt und Benutzer dazu ermutigt, kreativere Möglichkeiten zu erkunden. Unterdessen adressieren technische Upgrades, wie neue APIs und Fairness-Testberichte, Aspekte wie Modell-Integration und ethische KI-Praktiken. Lass uns eintauchen und die neuesten ChatGPT-Funktionen von OpenAI besser verstehen!
Link to this sectionEin Überblick über die Canvas-Funktion von OpenAI#
Canvas ist das erste große Update der Benutzeroberfläche (UI) von ChatGPT seit seiner Veröffentlichung. Es handelt sich um eine neue Oberfläche mit einem Zwei-Bildschirm-Layout: Prompts in der linken Seitenleiste und Antworten im rechten Fenster. Das neue UI eliminiert die übliche Arbeitsweise einer Chat-ähnlichen Einzelbildschirm-Struktur und wechselt zu einem Zwei-Bildschirm-Layout, das sich für Multitasking-Zwecke eignet, um die Produktivität zu steigern.

Abb. 1. Canvas bringt UI-Updates für ChatGPT.
Bevor Canvas eingeführt wurde, bedeutete die Arbeit mit langen Dokumenten in ChatGPT, dass du ziemlich viel scrollen musstest. Im neuen Layout werden Prompts in der linken Seitenleiste angezeigt, und das Textdokument oder der Code-Schnipsel nimmt den Großteil des Bildschirms ein. Bei Bedarf kannst du die Größe der linken Seitenleiste und des Ausgabebildschirms sogar anpassen. Außerdem kannst du einen Teil des Textes oder einen Abschnitt des Codes auswählen und den spezifischen Bereich bearbeiten, ohne das gesamte Dokument zu ändern.

Abb. 2. Bearbeite spezifische Textabschnitte mit Canvas.
Wenn du Canvas verwendest, wirst du feststellen, dass es keinen speziellen Button oder Umschalter gibt, um es auf der ChatGPT-Oberfläche zu öffnen. Stattdessen öffnet sich Canvas automatisch, wenn du mit dem GPT-4o-Modell arbeitest und es erkennt, dass du bearbeitest, schreibst oder programmierst. Bei einfacheren Prompts bleibt es inaktiv. Wenn du es manuell öffnen möchtest, kannst du Prompts wie "Öffne Canvas" oder "Gib mir das Canvas-Layout" verwenden.
Derzeit befindet sich Canvas in der Beta-Phase und ist nur mit GPT-4o verfügbar. OpenAI hat jedoch erwähnt, dass Canvas für alle kostenlosen Benutzer verfügbar sein wird, sobald es die Beta-Phase verlässt.
Link to this sectionChatGPTs API-Updates#
OpenAI hat drei neue ChatGPT-API-Updates veröffentlicht, die auf eine Verbesserung der Effizienz, Skalierbarkeit und Vielseitigkeit abzielen. Lass uns einen genaueren Blick auf jedes dieser Updates werfen.
Link to this sectionModell-Destillation#
Mit der Funktion Modell-Destillation über die OpenAI-APIs können Entwickler die Ausgaben von fortschrittlichen Modellen wie GPT-4o oder o1-preview nutzen, um die Leistung kleinerer, kosteneffizienter Modelle wie GPT-4o mini zu verbessern. Die Modell-Destillation ist ein Prozess, bei dem kleinere Modelle darauf trainiert werden, das Verhalten fortschrittlicherer Modelle nachzuahmen, wodurch sie für spezifische Aufgaben effizienter werden.
Bevor diese Funktion eingeführt wurde, mussten Entwickler eine Vielzahl von Aufgaben manuell mit unterschiedlichen Tools koordinieren. Zu diesen Aufgaben gehörten das Erstellen von datasets, das Messen der model performance und das fine-tuning von Modellen, was den Prozess oft komplex und fehleranfällig machte. Das Modell-Distillations-Update ermöglicht es Entwicklern, Stored Completions zu verwenden – ein Tool, mit dem sie automatisch generate datasets können, indem sie die durch fortschrittliche Modelle über die API erzeugten Eingabe-Ausgabe-Paare erfassen und speichern.
Eine weitere Funktion der Modell-Destillation, Evals (derzeit in der Beta-Phase), hilft dabei, zu messen, wie gut ein Modell bei bestimmten Aufgaben abschneidet, ohne benutzerdefinierte Evaluierungsskripte erstellen oder separate Tools verwenden zu müssen. Unter Verwendung von Datensätzen, die mit Stored Completions generiert wurden, und der Leistungsbewertung mit Evals können Entwickler ihre eigenen, benutzerdefinierten GPT-Modelle feinabstimmen.

Abb. 3. Du kannst Evals verwenden, um die Modellleistung zu messen.
Link to this sectionPrompt-Caching#
Oftmals wird beim Erstellen von AI applications, insbesondere chatbots, derselbe context (die Hintergrundinformationen oder der bisherige Gesprächsverlauf, die zum Verständnis der aktuellen Anfrage erforderlich sind) wiederholt für mehrere API-Aufrufe verwendet. Prompt Caching ermöglicht es Entwicklern, kürzlich verwendete input tokens (Textsegmente, die das Modell verarbeitet, um den Prompt zu verstehen und eine Antwort zu generieren) wiederzuverwenden, was dabei hilft, Kosten und Latenz zu reduzieren.
Seit dem 1. Oktober wendet OpenAI Prompt Caching automatisch auf seine Modelle wie GPT-4o, GPT-4o mini, o1-preview und o1-mini an. Das bedeutet, dass das System die bereits verarbeiteten Teile speichert, wenn Entwickler die API nutzen, um mit einem Modell bei einem langen prompt (über 1.024 Tokens) zu interagieren.
Auf diese Weise kann die Neuberechnung dieser Teile übersprungen werden, wenn dieselben oder ähnliche Prompts erneut verwendet werden. Das System speichert automatisch den längsten Teil des Prompts, auf den es zuvor gestoßen ist, beginnend bei 1.024 Token und in 128-Token-Blöcken ergänzend, während der Prompt länger wird.
Link to this sectionRealtime API#
Das Erstellen eines voice assistant erfordert in der Regel das Transkribieren von audio to text, das Verarbeiten des Textes und anschließend die Rückumwandlung in audio to play für die Antwort. Die Realtime API von OpenAI zielt darauf ab, diesen gesamten Prozess mit einer einzigen API-Anfrage zu bewältigen. Indem die API den Prozess vereinfacht, ermöglicht sie Echtzeit-Konversationen mit KI.
Zum Beispiel kann ein mit der Realtime API integrierter Sprachassistent spezifische Aktionen ausführen, wie eine Bestellung aufgeben oder Informationen finden, basierend auf Benutzeranfragen. Die API macht den Sprachassistenten reaktionsschneller und in der Lage, sich schnell an die Bedürfnisse der Benutzer anzupassen. Die Realtime API ist seit dem 1. Oktober in einer öffentlichen Beta-Phase mit sechs Stimmen verfügbar. Am 30. Oktober wurden fünf weitere Stimmen hinzugefügt, sodass insgesamt elf Stimmen zur Verfügung stehen.

Abb. 4. Ein Beispiel für die Verwendung der Realtime API zum Üben von Konversationen in einer neuen Sprache.
Link to this sectionFine-Tuning von ChatGPT für Vision-Aufgaben#
Ursprünglich konnte das GPT-4o Vision-Sprachmodell nur mit reinen Textdatensätzen feinabgestimmt und angepasst werden. Jetzt, mit der Veröffentlichung der Vision-Fine-Tuning-API, können Entwickler GPT-4o mithilfe von Bilddatensätzen trainieren und anpassen. Seit der Veröffentlichung ist das Vision-Fine-Tuning zu einem wichtigen Thema bei Entwicklern und Computer-Vision-Ingenieuren geworden.
Um die Vision-Fähigkeiten von GPT-4o feinabzustimmen, können Entwickler Bilddatensätze verwenden, die von nur 100 bis zu 50.000 Bildern reichen. Nachdem sichergestellt wurde, dass der Datensatz dem von OpenAI geforderten Format entspricht, kann er auf die OpenAI-Plattform hochgeladen werden und das Modell kann für spezifische Anwendungen feinabgestimmt werden.
Zum Beispiel nutzte Automat, ein Automatisierungsunternehmen, einen Datensatz von Screenshots, um GPT-4o darauf zu trainieren, UI-Elemente auf einem Bildschirm basierend auf einer Beschreibung zu identifizieren. Dies hilft, Robotic Process Automation (RPA) zu optimieren, indem es Bots erleichtert wird, mit Benutzeroberflächen zu interagieren. Anstatt sich auf feste Koordinaten oder komplexe Selektorregeln zu verlassen, kann das Modell UI-Elemente anhand einfacher Beschreibungen identifizieren, was Automatisierungseinrichtungen anpassungsfähiger und wartungsfreundlicher macht, wenn sich Schnittstellen ändern.

Abb. 5. Verwendung einer feinabgestimmten Version des GPT-4o-Modells zur Erkennung von UI-Elementen.
Link to this sectionChatGPT-Fairness und Erkennung von Voreingenommenheit#
Ethische Bedenken im Zusammenhang mit KI-Anwendungen sind ein prominentes Gesprächsthema, da KI immer weiter fortgeschritten ist. Da die Antworten von ChatGPT auf benutzergesteuerten Prompts und im Internet verfügbaren Daten basieren, kann es eine Herausforderung sein, die Sprache so feinabzustimmen, dass sie immer verantwortungsvoll ist. Berichten zufolge sind ChatGPT-Antworten voreingenommen in Bezug auf Namen, Geschlecht und Rasse. Um dieses Problem anzugehen, führte das interne Team von OpenAI einen Fairness-Test aus erster Hand durch.
Namen enthalten oft subtile Hinweise auf unsere Kultur und geografische Faktoren. In den meisten Fällen ignoriert ChatGPT diese subtilen Hinweise in den Namen. In einigen Fällen führen jedoch Namen, die Rasse oder Kultur widerspiegeln, zu unterschiedlichen Antworten von ChatGPT, wobei etwa 1 % davon schädliche Sprache enthalten. Das Eliminieren von Vorurteilen und schädlicher Sprache ist eine herausfordernde Aufgabe für ein Sprachmodell. Indem diese Ergebnisse jedoch öffentlich geteilt und die Einschränkungen des Modells anerkannt werden, hilft OpenAI den Benutzern dabei, ihre Prompts zu verfeinern, um neutralere, unvoreingenommene Antworten zu erzielen.

Abb. 6. Ein Beispiel für unterschiedliche Antworten aufgrund des Benutzernamens.
Link to this sectionChatGPT-Suche verstehen#
Als ChatGPT erstmals eingeführt wurde, gab es in der KI-Community Diskussionen darüber, ob es das traditionelle Websurfen ersetzen könnte. Mittlerweile nutzen viele Benutzer ChatGPT anstelle der Google-Suche.
OpenAIs neues Update, die Suchfunktion, geht noch einen Schritt weiter. Mit der Suche generiert ChatGPT aktuelle Antworten und enthält Links zu relevanten Quellen. Seit dem 31. Oktober steht die Suchfunktion allen ChatGPT Plus- und Team-Benutzern zur Verfügung, wodurch ChatGPT eher wie eine KI-gestützte Suchmaschine funktioniert.

Abb. 7. Ein Beispiel für die Verwendung der neuen Suchfunktion von ChatGPT.
Link to this sectionDer Weg nach vorne#
Die jüngsten Updates von ChatGPT konzentrieren sich darauf, KI nützlicher, flexibler und fairer zu machen. Die neue Canvas-Funktion hilft Benutzern, effizienter zu arbeiten, während Vision-Fine-Tuning es Entwicklern ermöglicht, Modelle anzupassen, um visuelle Aufgaben besser zu bewältigen. Die Adressierung von Fairness und die Reduzierung von Voreingenommenheit sind ebenfalls wichtige Prioritäten, um sicherzustellen, dass KI für jeden gut funktioniert, unabhängig davon, wer er ist. Egal, ob du ein Entwickler bist, der Modelle feinabstimmt, oder nur die neuesten Funktionen nutzt, ChatGPT entwickelt sich weiter, um eine breite Palette von Anforderungen zu erfüllen. Mit Echtzeit-Fähigkeiten, visueller Integration und einem Fokus auf verantwortungsvolle Nutzung schaffen diese Updates eine vertrauenswürdigere und zuverlässigere KI-Erfahrung für alle.
Erkunde mehr über KI, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Erfahre mehr über KI-Anwendungen im autonomen Fahren und im Gesundheitswesen.






