Die neuesten OpenAI-Updates: Canvas, Vision Fine-Tuning und mehr

Abirami Vina

4 Minuten lesen

7. November 2024

Schauen Sie sich mit uns die jüngsten ChatGPT-Updates von OpenAI genauer an. Wir werden Canvas, die Feinabstimmung für die Vision-Funktionen und die neueste Suchfunktion untersuchen.

Nachdem wir im September einen Blick auf die o1-Modelle von OpenAI geworfen haben (die das logische Denken verbessern sollen), wurden viele neue und spannende Funktionen zu ChatGPT hinzugefügt. Einige dieser Neuerungen richten sich an Entwickler, andere sind dazu gedacht, die Benutzerfreundlichkeit zu verbessern. Insgesamt trägt jede Aktualisierung dazu bei, die Interaktion mit ChatGPT intuitiver und effektiver zu gestalten.

Aktualisierungen wie Canvas, das für gemeinsames Schreiben und Programmieren entwickelt wurde, und die Feinabstimmung der Bildbearbeitungsfunktionen, die die Arbeit von ChatGPT mit Bildern verbessert, haben großes Interesse geweckt und die Nutzer dazu ermutigt, mehr kreative Möglichkeiten zu erkunden. Technische Verbesserungen wie neue APIs und Fairness-Testberichte befassen sich mit Aspekten wie Modellintegration und ethischen KI-Praktiken . Lassen Sie uns eintauchen und ein besseres Verständnis der neuesten ChatGPT-Funktionen von OpenAI gewinnen!

Ein Überblick über die Canvas-Funktion von OpenAI

Canvas ist die erste größere Aktualisierung der ChatGPT-Benutzeroberfläche (UI) seit ihrer Veröffentlichung. Es handelt sich um eine neue Oberfläche mit einem Zwei-Bildschirm-Layout, Eingabeaufforderungen in der linken Seitenleiste und Antworten im rechten Seitenfenster. Die neue Benutzeroberfläche beseitigt den üblichen Arbeitsablauf einer Chat-ähnlichen Ein-Bildschirm-Struktur und wechselt zu einem Zwei-Bildschirm-Layout, das für Multitasking-Zwecke geeignet ist, um die Produktivität zu steigern.

__wf_reserved_inherit
Abb. 1. Canvas bringt UI-Updates für ChatGPT.

Vor der Einführung von Canvas bedeutete die Arbeit mit langen Dokumenten auf ChatGPT, dass man ziemlich viel nach oben und unten scrollen musste. Im neuen Layout werden die Eingabeaufforderungen in der linken Seitenleiste angezeigt und das Textdokument oder der Codeschnipsel nimmt den größten Teil des Bildschirms ein. Bei Bedarf können Sie sogar die Größe der linken Seitenleiste und des Ausgabebildschirms anpassen. Außerdem können Sie einen Teil des Textes oder einen Abschnitt des Codes auswählen und den betreffenden Abschnitt bearbeiten, ohne das gesamte Dokument zu verändern.

__wf_reserved_inherit
Abb. 2. Bearbeiten bestimmter Textabschnitte mit Canvas.

Wenn Sie Canvas verwenden, werden Sie feststellen, dass es auf der ChatGPT-Benutzeroberfläche keine spezielle Schaltfläche oder einen Umschalter zum Öffnen gibt. Wenn Sie mit dem GPT-4o-Modell arbeiten, wird Canvas automatisch geöffnet, wenn es erkennt, dass Sie etwas bearbeiten, schreiben oder codieren. Bei einfacheren Eingabeaufforderungen bleibt es inaktiv. Wenn Sie es manuell öffnen möchten, können Sie Aufforderungen wie "Öffnen Sie das Canvas" oder "Holen Sie mir das Canvas-Layout" verwenden.

Derzeit ist Canvas in der Beta-Phase und nur mit GPT-4o verfügbar. OpenAI hat jedoch erwähnt, dass Canvas für alle kostenlosen Nutzer verfügbar sein wird, sobald es aus der Beta-Phase heraus ist.

ChatGPTs API-Aktualisierungen

OpenAI hat drei neue ChatGPT-API-Updates veröffentlicht, die die Effizienz, Skalierbarkeit und Vielseitigkeit verbessern sollen. Werfen wir einen genaueren Blick auf jede dieser Aktualisierungen.

Modell Destillation

Mit der Funktion Modell-Destillation über die OpenAI-APIs können Entwickler die Ergebnisse fortgeschrittener Modelle wie GPT-4o oder o1-preview nutzen, um die Leistung kleinerer, kosteneffizienter Modelle wie GPT-4o mini zu verbessern. Modell-Destillation ist ein Prozess, bei dem kleinere Modelle so trainiert werden, dass sie das Verhalten der fortgeschritteneren Modelle nachahmen und dadurch für bestimmte Aufgaben effizienter werden.

Bevor diese Funktion eingeführt wurde, mussten die Entwickler eine Vielzahl von Aufgaben manuell mit verschiedenen Tools koordinieren. Zu diesen Aufgaben gehörten die Generierung von Datensätzen, die Messung der Modellleistung und die Feinabstimmung der Modelle, was den Prozess oft komplex und fehleranfällig machte. Mit dem Model Distillation-Update können Entwickler Stored Completions verwenden, ein Tool, mit dem sie automatisch Datensätze generieren können, indem sie die von fortgeschrittenen Modellen erzeugten Eingabe-Ausgabe-Paare über die API erfassen und speichern.

Eine weitere Funktion von Model Distillation, Evals (derzeit in der Beta-Phase), hilft bei der Messung der Leistung eines Modells bei bestimmten Aufgaben, ohne dass benutzerdefinierte Bewertungsskripte erstellt oder separate Tools verwendet werden müssen. Mithilfe von Datensätzen , die mit Stored Completions generiert wurden, und der Bewertung der Leistung mit Evals können Entwickler ihre eigenen benutzerdefinierten GPT-Modelle feinabstimmen.

__wf_reserved_inherit
Abbildung 3. Sie können Evals verwenden, um die Modellleistung zu messen.

Prompt-Caching

Bei der Entwicklung von KI-Anwendungen, insbesondere von Chatbots, wird oft derselbe Kontext (die Hintergrundinformationen oder der bisherige Gesprächsverlauf, die zum Verständnis der aktuellen Anfrage benötigt werden) wiederholt für mehrere API-Aufrufe verwendet. Prompt Caching ermöglicht es Entwicklern, kürzlich verwendete Eingabe-Token (Textabschnitte, die das Modell verarbeitet, um die Eingabeaufforderung zu verstehen und eine Antwort zu generieren) wiederzuverwenden und so Kosten und Latenzzeiten zu reduzieren.

Seit dem 1. Oktober hat OpenAI automatisch Prompt Caching auf seine Modelle wie GPT-4o, GPT-4o mini, o1-preview und o1-mini angewendet. Das bedeutet, wenn Entwickler die API verwenden, um mit einem Modell mit einer langen Eingabeaufforderung (über 1.024 Token) zu interagieren, speichert das System die bereits verarbeiteten Teile. 

Auf diese Weise kann das System bei erneuter Verwendung der gleichen oder ähnlicher Aufforderungen die Neuberechnung dieser Teile überspringen. Das System speichert automatisch den längsten Teil des Prompts, auf den es zuvor gestoßen ist. Es beginnt mit 1.024 Token und fügt Stücke von 128 Token hinzu, wenn der Prompt länger wird.

Echtzeit-API

Um einen Sprachassistenten zu erstellen, müssen in der Regel Audiodaten in Text umgewandelt, der Text verarbeitet und dann wieder in Audiodaten um gewandelt werden , um die Antwort abzuspielen. Die Realtime API von OpenAI zielt darauf ab, diesen gesamten Prozess mit einer einzigen API-Anfrage abzuwickeln. Durch die Vereinfachung des Prozesses ermöglicht die API Unterhaltungen mit KI in Echtzeit. 

Ein mit der Realtime-API integrierter Sprachassistent kann zum Beispiel auf der Grundlage von Nutzeranfragen bestimmte Aktionen durchführen, wie eine Bestellung aufgeben oder Informationen suchen. Die API macht den Sprachassistenten reaktionsfähiger und in der Lage, sich schnell an die Bedürfnisse der Nutzer anzupassen. Die Realtime-API ist seit dem 1. Oktober in der öffentlichen Beta-Phase mit sechs Stimmen verfügbar. Am 30. Oktober wurden fünf weitere Stimmen hinzugefügt, so dass nun insgesamt elf Stimmen zur Verfügung stehen.

__wf_reserved_inherit
Abbildung 4. Ein Beispiel für die Verwendung der Realtime API zum Üben von Gesprächen in einer neuen Sprache.

Feinabstimmung von ChatGPT für Bildverarbeitungsaufgaben

Ursprünglich konnte das GPT-4o-Vision-Sprachmodell nur mit reinen Textdatensätzen feinabgestimmt und angepasst werden. Mit der Veröffentlichung der API für die Feinabstimmung des Bildverarbeitungsmodells können Entwickler nun GPT-4o anhand von Bilddatensätzen trainieren und anpassen. Seit der Veröffentlichung ist die Feinabstimmung von Bildverarbeitungsmodellen zu einem wichtigen Thema für Entwickler und Computer-Vision-Ingenieure geworden.

Zur Feinabstimmung der Bildverarbeitungsfähigkeiten von GPT-4o können Entwickler Bilddatensätze verwenden, die von wenigen 100 Bildern bis zu 50.000 Bildern reichen. Nachdem sichergestellt wurde, dass der Datensatz dem von OpenAI geforderten Format entspricht, kann er auf die OpenAI-Plattform hochgeladen und das Modell für bestimmte Anwendungen feinabgestimmt werden. 

Automat, ein Automatisierungsunternehmen, nutzte beispielsweise einen Datensatz mit Screenshots, um GPT-4o zu trainieren , UI-Elemente auf einem Bildschirm anhand einer Beschreibung zu identifizieren. Dies trägt zur Rationalisierung der Robotic Process Automation (RPA) bei, indem es Bots die Interaktion mit Benutzeroberflächen erleichtert. Anstatt sich auf feste Koordinaten oder komplexe Selektionsregeln zu verlassen, kann das Modell UI-Elemente auf der Grundlage einfacher Beschreibungen identifizieren, wodurch Automatisierungs-Setups anpassungsfähiger und einfacher zu pflegen sind, wenn sich Schnittstellen ändern.

__wf_reserved_inherit
Abb. 5. Verwendung einer fein abgestimmten Version des GPT-4o-Modells zur Erkennung von UI-Elementen.

ChatGPT Fairness und Erkennung von Verzerrungen

Ethische Bedenken im Zusammenhang mit KI-Anwendungen sind ein wichtiges Gesprächsthema, da die KI immer weiter fortgeschritten ist. Da die Antworten von ChatGPT auf vom Benutzer eingegebenen Eingabeaufforderungen und im Internet verfügbaren Daten basieren, kann es schwierig sein, die Sprache so abzustimmen, dass sie stets verantwortungsvoll ist. Berichten zufolge sind die Antworten von ChatGPT in Bezug auf Name, Geschlecht und Ethnie voreingenommen. Um dieses Problem zu lösen, führte das interne Team von OpenAI einen Fairness-Test in der ersten Person durch.

Namen enthalten oft subtile Hinweise auf unsere Kultur und geografische Faktoren. In den meisten Fällen wird ChatGPT die subtilen Hinweise in den Namen ignorieren. In einigen Fällen jedoch führen Namen, die Ethnie oder Kultur widerspiegeln, zu unterschiedlichen Reaktionen von ChatGPT, wobei etwa 1 % dieser Namen schädliche Sprache widerspiegeln. Die Beseitigung von Vorurteilen und schädlicher Sprache ist eine schwierige Aufgabe für ein Sprachmodell. Durch die Veröffentlichung dieser Ergebnisse und die Anerkennung der Grenzen des Modells hilft OpenAI den Nutzern, ihre Eingabeaufforderungen zu verfeinern, um neutralere, unvoreingenommene Antworten zu erhalten. 

__wf_reserved_inherit
Abb. 6. Ein Beispiel für unterschiedliche Antworten aufgrund des Namens des Nutzers.

Verstehen der ChatGPT-Suche

Als ChatGPT auf den Markt kam, gab es in der KI-Gemeinschaft Diskussionen darüber, ob es das herkömmliche Surfen im Internet ersetzen könnte. Jetzt verwenden viele Nutzer ChatGPT anstelle der Google-Suche

Das neue Update von OpenAI, die Suchfunktion, geht hier noch einen Schritt weiter. Mit der Suche generiert ChatGPT aktuelle Antworten und enthält Links zu relevanten Quellen. Seit dem 31. Oktober ist die Suchfunktion für alle ChatGPT Plus- und Team-Benutzer verfügbar, wodurch ChatGPT mehr wie eine KI-gesteuerte Suchmaschine funktioniert.

__wf_reserved_inherit
Abb. 7. Ein Beispiel für die Verwendung der neuen Suchfunktion von ChatGPT.

Der Weg nach vorn

Die jüngsten Updates von ChatGPT konzentrieren sich darauf, KI nützlicher, flexibler und fairer zu machen. Die neue Canvas-Funktion hilft den Nutzern, effizienter zu arbeiten, während die Feinabstimmung des Sehvermögens es den Entwicklern ermöglicht, die Modelle so anzupassen, dass sie visuelle Aufgaben besser bewältigen können. Fairness und der Abbau von Vorurteilen sind ebenfalls wichtige Prioritäten, um sicherzustellen, dass KI für jeden gut funktioniert, unabhängig davon, wer er ist. Ganz gleich, ob Sie ein Entwickler sind, der seine Modelle verfeinert, oder einfach nur die neuesten Funktionen nutzen möchten, ChatGPT entwickelt sich weiter, um eine Vielzahl von Anforderungen zu erfüllen. Mit Echtzeit-Funktionen, visueller Integration und dem Fokus auf eine verantwortungsvolle Nutzung sorgen diese Updates für ein vertrauenswürdiges und zuverlässiges KI-Erlebnis für alle.

Erfahren Sie mehr über KI, indem Sie unser GitHub-Repository besuchen und unserer Community beitreten. Erfahren Sie mehr über KI-Anwendungen für selbstfahrende Autos und das Gesundheitswesen.

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert