Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Constitutional AI

Scopri come la Constitutional AI garantisce risultati etici, sicuri e imparziali allineando i modelli con principi predefiniti e valori umani.

L'IA costituzionale (CAI) è una metodologia di formazione progettata per allineare i sistemi di sistemi di intelligenza artificiale (IA) con i valori umani incorporando un insieme predefinito di regole, o una "costituzione", direttamente nel processo di formazione. processo di formazione. A differenza degli approcci tradizionali, che si affidano in larga misura al feedback umano per ogni specifico risultato, la CAI consente a un modello di criticare e rivedere i risultati. modello di criticare e rivedere il proprio comportamento sulla base di principi quali la disponibilità, l'onestà e l'innocuità. Questo approccio approccio risponde alla crescente necessità di sicurezza dell'IA automatizzando il processo di automatizzando il processo di allineamento, rendendo possibile l'addestramento di assistenti capaci che rispettino le linee guida etiche senza richiedere una quantità ingestibile di supervisione umana. Governando il comportamento del modello attraverso istruzioni istruzioni esplicite, gli sviluppatori possono ridurre algoritmici e prevenire la generazione di contenuti contenuti tossici o non sicuri.

Come funziona la Constitutional AI

Il flusso di lavoro per l'IA costituzionale prevede in genere due fasi distinte che vanno oltre l'apprendimento standard. apprendimento supervisionato. Queste fasi consentono al modello di imparare dal proprio feedback, guidato dalla costituzione, piuttosto che dalle sole etichette umane esterne.

  1. Apprendimento supervisionato con autocritica: Il modello genera risposte alle richieste e poi critica i propri risultati le proprie risposte in base ai principi della costituzione. Se la risposta viola una regola, ad esempio perché è scortese o di parte, il modello la rivede. di parte, il modello la rivede. In questo modo si crea un insieme di esempi conformi di alta qualità per l'addestramento del modello. l'addestramento del modello.
  2. Apprendimento di rinforzo dal feedback dell'intelligenza artificiale (RLAIF): In questa fase, il modello o un modello separato di feedback di feedback valuta le coppie di risposte e seleziona quella che aderisce meglio alla costituzione. Questi dati di preferenza vengono utilizzati per addestrare un modello di preferenze, che poi guida il modello principale utilizzando il Reinforcement Learning. Apprendimento per rinforzo. In questo modo sostituisce le etichette di preferenza umane con quelle generate dall'intelligenza artificiale, snellendo il processo di processo di messa a punto.

AI costituzionale vs. RLHF

È fondamentale distinguere il CAI dal Reinforcement Learning from Human Feedback (RLHF), in quanto rappresentano strategie diverse per l'allineamento.

  • RLHF: si affida agli annotatori umani per valutare manualmente i risultati dei modelli. Pur essendo efficace, questo processo è difficile da scalare e può esporre gli operatori umani a contenuti disturbanti o traumatici durante l'etichettatura dei dati. l'etichettatura dei dati.
  • AI costituzionale: utilizza RLAIF per automatizzare il ciclo di feedback. Definendo la "costituzione" in modo esplicito, gli sviluppatori ottengono una maggiore trasparenza nel comportamento dell'IA, poiché le regole che guidano le decisioni sono scritte in un testo chiaro piuttosto che apprese implicitamente da migliaia di valutazioni umane individuali. umano. Questo migliora la scalabilità e protegge gli annotatori.

Applicazioni nel mondo reale

Mentre l'IA costituzionale è nata nel contesto dei modelli linguistici di grandi dimensioni (LLM) sviluppati da organizzazioni come Anthropici suoi principi vengono sempre più adattati per compiti di apprendimento automatico più ampi, tra cui Visione artificiale (CV).

  • Chatbot etici: La CAI è ampiamente utilizzata per formare agenti conversazionali che si rifiutano di generare di odio, di istruzioni per atti illegali o di contenuti di parte politica. Questo garantisce che strumenti di IA generativa rimangano sicuri per pubblico.
  • Sistemi di visione critici per la sicurezza: Nei veicoli autonomi, un approccio "costituzionale" può definire regole gerarchiche per il processo decisionale. Ad esempio, una regola che afferma "la sicurezza umana prevale sull'efficienza del traffico" può guidare il modello nell'analisi di scene stradali complesse, che i risultati del rilevamento degli oggetti siano interpretati di rilevamento degli oggetti siano interpretati con la priorità della sicurezza.

Implementazione dei controlli dei criteri nell'inferenza

Mentre l'addestramento completo dell'IA costituzionale comporta complessi cicli di feedback, gli sviluppatori possono applicare il concetto di "controlli costituzionali" durante di inferenza per filtrare i risultati in base alle politiche di sicurezza. sicurezza. L'esempio seguente dimostra l'utilizzo di YOLO11 per detect gli oggetti e applicare una ipotetica regola di sicurezza per filtrare i rilevamenti a bassa sicurezza, garantendo un'elevata affidabilità.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Il futuro dell'allineamento dell'IA

Con l'evoluzione dei modelli verso Intelligenza Generale Artificiale (AGI), cresce l'importanza di strategie di allineamento robuste come la Constitutional AI. Questi metodi sono essenziali per conformità con gli standard emergenti di organismi come il NIST AI Safety Institute.

Ultralytics è impegnata nella ricerca di come integrare le funzioni di sicurezza e allineamento nel ciclo di vita del modello. L'architettura architettura YOLO26, attualmente in fase di ricerca e sviluppo, mira a incorporare funzioni avanzate di interpreta interpretabilità avanzate che si allineano a questi obiettivi di sicurezza, garantendo che la l 'implementazione dei modelli rimanga sicura ed efficiente in tutti i settori. Inoltre, la piattaforma unificata Ultralytics fornirà strumenti per gestire la governance dei dati e monitorare il comportamento dei modelli, facilitando la creazione di modelli responsabili. monitorare il comportamento dei modelli, facilitando la creazione di sistemi di intelligenza artificiale responsabili.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora