Glossar

Konstitutionelle KI

Entdecken Sie, wie Constitutional AI ethische, sichere und unvoreingenommene KI-Ergebnisse gewährleistet, indem die Modelle mit vordefinierten Prinzipien und menschlichen Werten in Einklang gebracht werden.

Constitutional AI (CAI) ist eine von Anthropic entwickelte Methode zum Trainieren von KI-Modellen, insbesondere von Large Language Models (LLMs), damit diese sich an einem bestimmten Satz von Regeln oder Prinzipien orientieren, die als "Verfassung" bezeichnet werden. Das Hauptziel von CAI ist es, KI-Systeme hilfreich, harmlos und besser kontrollierbar zu machen, ohne dass ein umfangreiches menschliches Feedback erforderlich ist. Anstatt dass der Mensch ständig schädliche Ergebnisse kennzeichnet, lernt die KI, ihre eigenen Reaktionen auf der Grundlage der Leitprinzipien in ihrer Verfassung zu kritisieren und zu überarbeiten. Dieser Ansatz hilft bei der Bewältigung zentraler Herausforderungen in der KI-Ethik, z. B. bei der Verhinderung der Erzeugung toxischer Inhalte und der Verringerung algorithmischer Verzerrungen.

Wie verfassungsrechtliche KI funktioniert

Der CAI-Ausbildungsprozess umfasst in der Regel zwei Hauptphasen:

  1. Phase des überwachten Lernens: Zunächst wird ein Gründungsmodell aufgefordert, Antworten zu geben. Dann wird dasselbe Modell aufgefordert, seine eigenen Antworten auf der Grundlage der Verfassung zu kritisieren und sie so umzuschreiben, dass sie besser mit seinen Grundsätzen übereinstimmen. So entsteht ein neuer Datensatz mit verbesserten, verfassungskonformen Beispielen. Dieser Selbstkritikmechanismus wird von einer Verfassung geleitet, die eine einfache Liste von Regeln sein kann oder aus komplexen Quellen wie der UN-Menschenrechtserklärung stammt.
  2. Phase des Reinforcement Learning: Das Modell wird dann mit Hilfe von Reinforcement Learning (RL) feinabgestimmt. In dieser Phase erzeugt die KI Antwortpaare, und ein Präferenzmodell (das anhand der selbstkritischen Daten aus der ersten Phase trainiert wurde) wählt dasjenige aus, das am besten mit der Verfassung übereinstimmt. Durch diesen Prozess lernt die KI, von sich aus Ergebnisse zu bevorzugen, die mit ihren Grundprinzipien übereinstimmen.

Ein wichtiges Beispiel für CAI in der Praxis ist die Implementierung in Anthropics KI-Assistenten Claude. Seine Verfassung leitet ihn dazu an, keine schädlichen Anweisungen zu geben, sich nicht an illegalen Aktivitäten zu beteiligen und auf nicht-toxische Weise zu kommunizieren, während er gleichzeitig hilfreich bleibt. Eine weitere Anwendung ist die automatisierte Moderation von Inhalten, bei der ein CAI-gesteuertes Modell eingesetzt werden könnte, um Hassreden oder Fehlinformationen im Internet zu erkennen und entsprechend vordefinierter ethischer Richtlinien zu kennzeichnen.

Konstitutionelle AI vs. verwandte Konzepte

Es ist wichtig, CAI von ähnlichen Begriffen zu unterscheiden:

  • Verstärkungslernen durch menschliches Feedback (RLHF): RLHF ist darauf angewiesen, dass Menschen Feedback geben und die von der KI erzeugten Antworten bewerten, was zeitaufwändig und schwer zu skalieren ist. CAI ersetzt die menschliche Feedbackschleife durch eine KI-gesteuerte Schleife, bei der die Verfassung des Modells das Feedback steuert. Dies macht den Abgleichprozess skalierbarer und konsistenter.
  • KI-Ethik: Dies ist ein weites Feld, das sich mit den moralischen Grundsätzen und technischen Problemen bei der Entwicklung verantwortungsvoller KI befasst. Konstitutionelle KI kann als praktischer Rahmen für die Umsetzung der KI-Ethik betrachtet werden, indem explizite ethische Regeln direkt in den Trainingsprozess des Modells eingebettet werden.

Anwendungen und Zukunftspotenzial

Gegenwärtig wird die konstitutionelle KI in erster Linie auf LLMs für Aufgaben wie Dialoggenerierung und Textzusammenfassung angewendet. Die zugrundeliegenden Prinzipien könnten jedoch auch auf andere KI-Bereiche ausgedehnt werden, einschließlich Computer Vision (CV). Zum Beispiel:

Die Entwicklung und Verfeinerung effektiver Verfassungen sowie die Sicherstellung, dass die KI diese in verschiedenen Kontexten treu befolgt, sind weiterhin aktive Forschungsbereiche von Organisationen wie Google AI und dem AI Safety Institute. Tools wie Ultralytics HUB erleichtern das Training und den Einsatz verschiedener KI-Modelle, und die Einbeziehung von Grundsätzen, die mit der konstitutionellen KI vergleichbar sind, wird immer wichtiger, um den verantwortungsvollen Einsatz von Modellen zu gewährleisten.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert