Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Konstitutionelle KI

Entdecken Sie, wie Constitutional AI ethische, sichere und unvoreingenommene KI-Ergebnisse gewährleistet, indem sie Modelle an vordefinierten Prinzipien und menschlichen Werten ausrichtet.

Konstitutionelle KI (CAI) ist eine Schulungsmethode, die darauf abzielt, die Künstliche Intelligenz (KI) Systeme mit menschlichen Werten in Einklang zu bringen, indem ein vordefinierter Satz von Regeln, eine "Verfassung", direkt in den Prozess eingebettet wird. Im Gegensatz zu traditionellen Ansätzen, die für jede spezifische Ausgabe stark auf menschliches Feedback angewiesen sind, ermöglicht CAI einem Modell in die Lage, sein eigenes Verhalten auf der Grundlage von Prinzipien wie Hilfsbereitschaft, Ehrlichkeit und Unbedenklichkeit zu kritisieren und zu korrigieren. Dieser Ansatz entspricht dem wachsenden Bedarf an KI-Sicherheit durch die Automatisierung des Anpassungsprozesses, wodurch es möglich wird, fähige Assistenten auszubilden, die ethische Richtlinien einhalten ohne ein unüberschaubares Maß an menschlicher Aufsicht zu erfordern. Indem das Verhalten des Modells durch explizite Anweisungen steuern, können die Entwickler algorithmische Voreingenommenheit reduzieren und die Erzeugung von giftigen oder unsicheren Inhalten verhindern.

Wie Constitutional AI funktioniert

Der Arbeitsablauf für konstitutionelle KI umfasst in der Regel zwei verschiedene Phasen, die über das standardmäßige überwachte Lernen hinausgehen. In diesen Phasen lernt das Modell aus seinem eigenen Feedback zu lernen, das von der Verfassung geleitet wird, und nicht nur von externen menschlichen Kennzeichnungen.

  1. Überwachtes Lernen mit Selbstkritik: Das Modell erzeugt Antworten auf Aufforderungen und kritisiert dann seine eigene Ausgabe auf der Grundlage der Prinzipien der Verfassung. Wenn die Antwort gegen eine Regel verstößt, z. B. weil sie unhöflich oder voreingenommen ist, wird sie vom Modell überarbeitet. Auf diese Weise entsteht ein hochwertiger Datensatz mit konformen Beispielen für das Modelltraining.
  2. Verstärkungslernen aus KI-Feedback (RLAIF): In dieser Phase bewertet das Modell oder ein separates Feedback Modell die Antwortpaare aus und wählt dasjenige aus, das der Verfassung besser entspricht. Diese Präferenzdaten Präferenzdaten werden verwendet, um ein Präferenzmodell zu trainieren, das dann das Hauptmodell mit Verstärkungslernen. Dadurch wird menschliche Präferenzmarkierungen durch KI-generierte ersetzt und der Feinabstimmungsprozess.

Verfassungsrechtliche AI vs. RLHF

Es ist wichtig, CAI zu unterscheiden von Reinforcement Learning from Human Feedback (RLHF) zu unterscheiden, da sie unterschiedliche Strategien für die Anpassung darstellen.

  • RLHF: Verlassen sich auf menschliche Kommentatoren, die die Modellausgaben manuell bewerten. Dieser Prozess ist zwar effektiv, aber schwer zu skalieren und kann dazu führen, dass die Mitarbeiter bei der Datenkennzeichnung störenden oder traumatischen Datenbeschriftung aussetzen.
  • Konstitutionelle KI: Verwendet RLAIF, um die Feedbackschleife zu automatisieren. Durch die explizite Definition der "Verfassung" explizit definiert, erhalten die Entwickler mehr Transparenz im KI-Verhalten, da die Regeln Entscheidungen im Klartext niedergeschrieben sind und nicht implizit aus Tausenden von individuellen menschlichen Bewertungen. Dies verbessert die Skalierbarkeit und schützt die menschlichen Kommentatoren.

Anwendungsfälle in der Praxis

Während die konstitutionelle KI ihren Ursprung im Kontext der Large Language Models (LLM), entwickelt von Organisationen wie Anthropicentwickelt wurden, werden ihre Prinzipien zunehmend für umfassendere Aufgaben des maschinellen Lernens, einschließlich Computer Vision (CV).

  • Ethische Chatbots: CAI wird ausgiebig genutzt, um Gesprächsagenten zu trainieren, die sich weigern Hassreden, Anleitungen zu illegalen Handlungen oder politisch voreingenommene Inhalte zu erzeugen. Dies gewährleistet, dass generative KI-Tools sicher für den öffentlichen Einsatz.
  • Sicherheitskritische Bildverarbeitungssysteme: In autonomen Fahrzeugen kann ein "konstitutioneller" Ansatz hierarchische Regeln für die Entscheidungsfindung festlegen. Zum Beispiel kann eine Regel, die besagt "Die menschliche Sicherheit hat Vorrang vor der Verkehrseffizienz" kann das Modell bei der Analyse komplexer Straßenszenen leiten, sicherstellen, dass die Ergebnisse der Objekterkennung Sicherheit als Priorität interpretiert werden.

Implementierung von Richtlinienkontrollen in der Inferenz

Während das vollständige Training der konstitutionellen KI komplexe Feedback-Schleifen beinhaltet, können die Entwickler das Konzept der "konstitutionellen Prüfungen" während Inferenz anwenden, um die Ergebnisse auf der Basis von Sicherheits Richtlinien. Das folgende Beispiel zeigt die Verwendung von YOLO11 zur detect Objekten und die Anwendung einer hypothetischen Sicherheitsregel zur Filterung von Erkennungen mit geringer Wahrscheinlichkeit, um eine hohe Zuverlässigkeit zu gewährleisten.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Zukunft der AI-Anpassung

Da sich die Modelle in Richtung Künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) entwickeln, wächst die Bedeutung von robusten Ausrichtungsstrategien wie Constitutional AI. Diese Methoden sind unerlässlich für aufkommenden Standards von Einrichtungen wie dem NIST AI Safety Institute.

Ultralytics erforscht aktiv, wie Sicherheits- und Ausrichtungsfunktionen in den Lebenszyklus des Modells integriert werden können. Die YOLO26-Architektur, die sich derzeit in der F&E-Phase befindet, zielt darauf ab, fortgeschrittene Interpretierbarkeits die mit diesen Sicherheitszielen übereinstimmen, um sicherzustellen, dass Modellbereitstellung sicher und effizient bleibt über alle Branchen hinweg. Darüber hinaus wird die vereinheitlichte Ultralytics Werkzeuge für die Verwaltung von Daten und die Überwachung des Modellverhaltens bereitstellen und so die Entwicklung verantwortungsvoller KI-Systeme erleichtern.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten