OpenAI o1: Eine neue Serie von OpenAI Modellen für KI-logisches Schlussfolgern
Erfahre mehr über die neu eingeführten OpenAI o1 Modelle und was sie so besonders macht. Wir werfen auch einen Blick darauf, wie sie funktionieren und welchen Einfluss sie auf die Zukunft der KI haben.

In der KI-Community gab es viele Spekulationen über den nächsten Schritt bei den GPT-Modellen von OpenAI, die viele als „Project Strawberry“ bezeichneten. Der Grund dafür ist: Wenn du GPT-4o fragst, wie viele R's im Wort „strawberry“ vorkommen, sagt es dir, dass das Wort „strawberry“ zwei R's enthält. Das mag merkwürdig erscheinen, wenn man bedenkt, wie leistungsfähig GPT-4o ist. Das Modell ist jedoch darauf ausgelegt, den Subtext zu verarbeiten, nicht die exakten Wörter. Es gab Gerüchte, dass das nächste Modell darauf abzielen würde, dies zu lösen. Sam Altman befeuerte diese Gerüchte zusätzlich, indem er Bilder von Erdbeeren auf seinem X-Account (ehemals Twitter) postete.
Mit der neuesten Ankündigung von OpenAI am Donnerstag, den 12. September, haben wir endlich eine Antwort auf die Spekulationen! OpenAI o1, eine neue Serie von KI-Modellen, die so konzipiert sind, dass sie vor einer Antwort innehalten und nachdenken, wurde veröffentlicht. Interessanterweise kann OpenAI o1 besser logisch denken und die Frage nach den Erdbeeren korrekt beantworten! In diesem Artikel besprechen wir, was OpenAI o1 ist, wie es funktioniert, wo es eingesetzt werden kann und was es für die Zukunft der KI bedeutet. Fangen wir an!

Abb. 1. Ein Beispiel für die Abfrage von OpenAI o1 zu Erdbeeren.
Link to this sectionNeue Fortschritte in der KI durch OpenAI#
Im Juli 2024 teilten Führungskräfte von OpenAI mit, dass die Forschung von OpenAI kurz davor steht, ein menschliches Niveau bei der Problemlösung zu erreichen, was als Ebene 2 der KI bezeichnet wird. Es ist klar, dass sich diese Ebene auf logisches Denken konzentriert, da OpenAI seine neue Modellserie, OpenAI o1, so vorstellt, dass sie erst nachdenkt, bevor sie antwortet. OpenAI o1 ist ein neues LLM (Large Language Model), ein KI-Modell, das menschenähnlichen Text versteht und generiert, indem es Muster aus riesigen Mengen an Sprachdaten lernt. Es wurde entwickelt, um komplexe Probleme zu bewältigen, die tiefgehendes logisches Denken erfordern.

Abb. 2. OpenAIs Perspektive auf die Stufen der KI.
The model has been trained using reinforcement learning, a technique where the model learns to make better decisions through trial and error by receiving rewards or penalties for its actions. The reinforcement learning algorithm helps the model think more effectively by following a chain of thought. OpenAI also shared that o1’s performance keeps improving with more reinforcement learning during training and with more time spent "thinking" during problem-solving, showing that both extended training and thoughtful processing help boost the model's abilities.
Obwohl OpenAI o1 ein bedeutender Fortschritt für komplexes logisches Denken ist, ist es immer noch ein frühes Modell und es fehlen einige Funktionen, die ChatGPT nützlich machen, wie etwa das Durchsuchen des Webs oder das Hochladen von Dateien und Bildern. Für viele allgemeine Aufgaben könnte GPT-4o vorerst noch leistungsfähiger sein. OpenAI o1 markiert jedoch einen großen Schritt vorwärts bei der Fähigkeit der KI, komplexe logische Probleme zu bewältigen, weshalb OpenAI eine neue Serie startet und sie OpenAI o1 nennt.
Link to this sectionWie die neuen OpenAI-Modelle die KI-Logik verbessern#
OpenAI o1 kann für Aufgaben wie das Entschlüsseln von Chiffren, das Lösen von Programmieraufgaben, das Beantworten mathematischer Probleme, das Lösen von Kreuzworträtseln und sogar für die Bearbeitung komplexer Themen in Wissenschaft, Sicherheit und Gesundheitswesen eingesetzt werden. In einer amüsanten Anspielung auf den Codenamen des Projekts zeigte OpenAI die logischen Fähigkeiten des Modells, indem es eine Chiffre knackte, die die Nachricht „THERE ARE THREE R’S IN STRAWBERRY“ enthüllte.
Über das Knacken von Chiffren hinaus ist OpenAI o1 auch in der Programmierung geschickt. Es schneidet gut bei wettbewerbsorientierten Programmieraufgaben ab, wie sie auf Codeforces zu finden sind, einer Plattform, auf der Programmierer komplexe Programmierprobleme unter Zeitdruck lösen. Bei diesen Wettbewerben erreicht das Modell hohe Elo-Ratings (ein Punktesystem, das das Qualifikationsniveau basierend auf der Leistung gegen andere Teilnehmer misst) und übertrifft frühere Modelle. Es zeichnet sich auch in Mathematik aus und schneidet bei Prüfungen wie der American Invitational Mathematics Examination (AIME) gut ab.

Abb. 3. Benchmarking der Programmierfähigkeiten von o1.
Diese Fortschritte positionieren OpenAI o1 als ein signifikantes Upgrade gegenüber früheren Modellen wie GPT-4o. Es eröffnet neue Möglichkeiten für KI in Bereichen wie Wirtschaft, Entwicklung, Forschung und Gesundheitswesen. Zum Beispiel kann OpenAI o1 in der Genforschung schnell eine große Anzahl von Forschungsarbeiten durchsuchen, wichtige Erkenntnisse und Zusammenhänge zwischen genetischen Markern und Krankheiten herausfiltern. Es versteht komplexe wissenschaftliche Sprache und kann wichtige Punkte zusammenfassen, was Forschern hilft, sich auf die relevantesten Informationen zu konzentrieren.
Link to this sectionEin genauerer Blick auf die „Chain of Thought“#
Wir haben vorhin gesehen, dass OpenAI o1 einen „Chain of Thought“-Logikprozess einführt. Er ermöglicht es dem Modell, komplexe Probleme auf eine Weise anzugehen, die menschlichen kognitiven Strategien ähnelt. Das Modell kann Herausforderungen in kleinere, handhabbare Schritte unterteilen und seinen Ansatz iterativ verfeinern. Im Gegensatz zu früheren Modellen, die auf unmittelbarer Mustererkennung beruhten, optimiert o1 seine Entscheidungsfindung durch die Untersuchung mehrerer Logikpfade und lernt durch Reinforcement Learning sowohl aus Erfolgen als auch aus Fehlern.
OpenAI hat beschlossen, diese rohen Gedankengänge vor den Nutzern zu verbergen und stattdessen Zusammenfassungen anzubieten, die einen Einblick in die Logik des Modells geben, ohne jeden Schritt preiszugeben. Diese Entscheidung hilft, den Missbrauch des Denkprozesses des Modells zu verhindern und ermöglicht es Entwicklern dennoch, die KI-Sicherheit und -Ausrichtung zu überwachen und zu verfeinern. Durch die interne Beobachtung der verborgenen Ketten können Entwickler sicherstellen, dass o1 ethische Richtlinien einhält und schädliches Verhalten vermeidet.
Link to this sectionBenchmarking von OpenAI o1#
OpenAI o1 zeigt im Vergleich zu GPT-4o erhebliche Verbesserungen bei verschiedenen Benchmarks, die logisches Denken und Problemlösungsfähigkeiten testen. Bei der American Invitational Mathematics Examination (AIME) 2024, einer anspruchsvollen Mathematikprüfung für leistungsstarke Schüler, erreichte o1 eine Genauigkeitsrate von 74 % mit nur einem Beispiel pro Problem, verglichen mit 12 % bei GPT-4o. Mit einem Konsens über 64 Beispiele stieg die Genauigkeit auf 83 %, und durch die Verwendung einer verfeinerten Re-Ranking-Methode mit 1.000 Beispielen erreichte es 93 %, was es unter die besten 500 Schüler landesweit brachte.
Über die Mathematik hinaus schnitt o1 auch bei Benchmarks, die wissenschaftliches Wissen testen, wie dem GPQA Diamond, der Fragen auf PhD-Niveau in Chemie, Physik und Biologie abdeckt, außergewöhnlich gut ab. Bemerkenswerterweise übertraf o1 in diesem Test menschliche Experten mit Doktortitel, was es zum ersten KI-Modell macht, dem dies gelungen ist. Es übertraf auch GPT-4o in 54 von 57 Kategorien im MMLU-Benchmark, der das Verständnis über eine Vielzahl von Themen hinweg testet, einschließlich Geschichte, Recht und Wissenschaft.

Abb. 4. Benchmarking von OpenAI o1.
Link to this sectionErste Schritte mit OpenAI o1#
OpenAI hat zwei neue KI-Modelle in der o1-Serie eingeführt: o1-preview und o1-mini. Das o1-preview-Modell ist darauf ausgelegt, vor der Antwort tiefer nachzudenken, und zeichnet sich bei komplexen Logikaufgaben in den Bereichen Wissenschaft, Programmierung und Mathematik aus. Es bietet fortschrittliche Problemlösungsfähigkeiten für Benutzer, die an anspruchsvollen Projekten arbeiten. Im Gegensatz dazu ist o1-mini ein kleineres, schnelleres und kosteneffizienteres Modell, das speziell für STEM-Logik, insbesondere Mathematik und Programmierung, optimiert ist. Obwohl es möglicherweise über weniger breites Weltwissen verfügt, erreicht o1-mini bei wichtigen Evaluierungen wie dem AIME-Mathematikwettbewerb und den Codeforces-Programmieraufgaben nahezu die Leistung von o1-preview, und das bei 80 % geringeren Kosten.

Abb. 5. Vergleich der OpenAI-Modelle.
Du kannst diese Modelle über verschiedene OpenAI-Plattformen ausprobieren. ChatGPT Plus- und Team-Nutzer können über die Modellauswahl sowohl auf o1-preview als auch auf o1-mini zugreifen und verbesserte logische Fähigkeiten direkt in ChatGPT erleben. Entwickler mit API-Zugriff der Stufe 5 können mit dem Prototyping mit diesen Modellen beginnen, obwohl sich einige fortgeschrittene Funktionen noch in der Entwicklung befinden. OpenAI plant außerdem, o1-mini bald allen ChatGPT Free-Nutzern zur Verfügung zu stellen. Indem du diese Modelle erkundest, kannst du die Fortschritte in der KI-Logik aus erster Hand erleben und das Modell auswählen, das am besten zu deinen Bedürfnissen passt.
Link to this sectionEthische KI-Überlegungen von OpenAI#
OpenAI hat sich bei der Entwicklung der o1-Modellserie auf Ethik und Sicherheit konzentriert. Vor der Veröffentlichung der Modelle o1-preview und o1-mini führten sie gründliche Evaluierungen durch, einschließlich externer Tests und interner Überprüfungen auf Risiken wie unzulässige Inhalte, Halluzinationen und Voreingenommenheit. Die Modelle sind mit fortschrittlichen logischen Fähigkeiten ausgestattet, um Sicherheitsregeln besser zu verstehen und zu befolgen.
OpenAI hat außerdem Sicherheitsvorkehrungen wie Sperrlisten und Sicherheitsklassifikatoren implementiert, um Risiken zu verwalten. Das o1-Modell hat eine mittlere Gesamtrisikobewertung. Es weist geringe Risiken in Bereichen wie Cybersicherheit und Modellautonomie auf sowie mittlere Risiken in Bereichen wie CBRN-Inhalte (chemische, biologische, radiologische und nukleare Stoffe) und Überzeugung. OpenAIs Safety Advisory Group und das Board haben diese Sicherheitsmaßnahmen überprüft, um sicherzustellen, dass das Modell sicher und ethisch einwandfrei zu verwenden ist.

Abb. 6. OpenAI o1 Scorecard.
Link to this sectionVon Gerüchten zur Realität: OpenAI o1 betritt die Bühne#
OpenAI o1 ist ein großer Schritt nach vorne in der KI-Logik und macht einige der frühen Gerüchte zur Realität. Im Gegensatz zu GPT-4o denkt die o1-Serie tiefer nach, indem sie einen „Chain of Thought“-Ansatz verwendet und komplexe Probleme in kleinere Schritte unterteilt, um bessere Antworten zu liefern. Derzeit als frühe Vorschau in ChatGPT und der API verfügbar, plant OpenAI, Funktionen wie Websuche sowie Datei- und Bild-Uploads hinzuzufügen. OpenAI teilte zudem mit, dass sie neben der neuen OpenAI o1-Serie weiterhin Modelle der GPT-Serie entwickeln und veröffentlichen werden. Während sich die KI weiterentwickelt, ebnen solche Fortschritte den Weg für leistungsfähigere, intuitivere und vielseitigere KI-Systeme, die menschliche Bedürfnisse besser unterstützen und verstehen können.
Bleib auf dem Laufenden über das Neueste in der KI, indem du unserer Community beitrittst! Besuche unser GitHub-Repository, um zu sehen, wie wir KI-Lösungen in Sektoren wie Fertigung und Gesundheitswesen vorantreiben. 🚀






