Glossario

AI costituzionale

Scopri come Constitutional AI garantisce risultati etici, sicuri e imparziali allineando i modelli a principi predefiniti e valori umani.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

L'IA costituzionale è un approccio progettato per allineare i modelli di Intelligenza Artificiale (IA), in particolare i Large Language Models (LLM), con i valori umani e i principi etici. Invece di affidarsi esclusivamente al feedback diretto dell'uomo per guidare il comportamento, questo metodo utilizza un insieme predefinito di regole o principi - una "costituzione" - per aiutare l'IA a valutare e rivedere le proprie risposte durante il processo di formazione. L'obiettivo è creare sistemi di IA che siano utili, innocui e onesti, riducendo il rischio di generare risultati distorti, tossici o comunque indesiderati. Questa tecnica, sperimentata dai ricercatori di Anthropicmira a rendere l'allineamento delle IA più scalabile e meno dipendente dalla supervisione umana.

Come funziona l'intelligenza artificiale costituzionale

L'idea alla base dell'IA costituzionale prevede un processo di formazione in due fasi:

  1. Fase di apprendimento supervisionato: Inizialmente, un modello linguistico standard pre-addestrato viene sollecitato con scenari progettati per suscitare risposte potenzialmente dannose o indesiderate. Il modello genera diverse risposte. Queste risposte vengono poi criticate da un altro modello di intelligenza artificiale basato sui principi delineati nella costituzione. L'IA critica le proprie risposte, identificando i motivi per cui una risposta potrebbe violare un principio (ad esempio, essere non consensuale o dannosa). Il modello viene poi perfezionato sulla base di queste risposte autocritiche, imparando a generare risultati più in linea con la Costituzione. Questa fase utilizza tecniche di apprendimento supervisionato.
  2. Fase di apprendimento per rinforzo: Dopo la fase di supervisione, il modello viene ulteriormente perfezionato utilizzando l'apprendimento per rinforzo (RL). In questa fase, l'intelligenza artificiale genera risposte e un modello di intelligenza artificiale (addestrato utilizzando la costituzione) valuta queste risposte, fornendo un segnale di ricompensa in base alla loro aderenza ai principi costituzionali. Questo processo, spesso definito Reinforcement Learning from AI Feedback (RLAIF), ottimizza il modello affinché produca costantemente risultati in linea con la costituzione, insegnando essenzialmente all'IA a preferire un comportamento conforme alla costituzione.

Questo meccanismo di autocorrezione, guidato da principi espliciti, distingue l'IA costituzionale da metodi come il Reinforcement Learning from Human Feedback (RLHF), che si basa molto sulla valutazione dei risultati del modello da parte di etichettatori umani.

Concetti chiave

  • La Costituzione: Non si tratta di un documento legale letterale, ma di un insieme di principi o regole etiche esplicite che guidano il comportamento dell'IA. Questi principi possono derivare da varie fonti, come dichiarazioni universali (come la Dichiarazione dei Diritti Umani delle Nazioni Unite), termini di servizio o linee guida etiche personalizzate per applicazioni specifiche. L'efficacia dipende molto dalla qualità e dalla completezza di questi principi.
  • Autocritica e revisione dell'IA: Un aspetto fondamentale in cui il modello AI impara a valutare i propri risultati rispetto alla costituzione e a generare revisioni. Questo ciclo di feedback interno riduce la necessità di un intervento umano costante.
  • Allineamento dell'IA: L'AI costituzionale è una tecnica che contribuisce al più ampio campo dell'allineamento dell'AI, che cerca di garantire che gli obiettivi e i comportamenti dei sistemi di AI siano in linea con le intenzioni e i valori umani. Questa tecnica affronta le preoccupazioni relative alla sicurezza dell'IA e al potenziale di conseguenze indesiderate.
  • Scalabilità: Automatizzando il processo di feedback grazie all'intelligenza artificiale basata sulla costituzione, questo metodo mira a essere più scalabile rispetto all'RLHF, che può richiedere molto lavoro e potenzialmente introdurre pregiudizi umani(pregiudizio algoritmico).

Esempi del mondo reale

  1. I modelli Claude diAnthropic: L'esempio più importante è la famiglia di LLM Claude di Anthropic. Anthropic ha sviluppato l'intelligenza artificiale costituzionale proprio per addestrare questi modelli a essere "utili, innocui e onesti". La costituzione utilizzata include principi che scoraggiano la generazione di contenuti tossici, discriminatori o illegali, basati in parte sulla Dichiarazione dei Diritti Umani delle Nazioni Unite e su altre fonti etiche. Per saperne di più, leggi il loro documento sull'IA costituzionale collettiva.
  2. Sistemi di moderazione dei contenuti AI: I principi dell'IA costituzionale potrebbero essere applicati per addestrare modelli per le piattaforme di moderazione dei contenuti. Invece di affidarsi esclusivamente a moderatori umani o a rigidi filtri per parole chiave, l'IA potrebbe utilizzare una costituzione che definisce i contenuti dannosi (ad esempio, i discorsi d'odio, la disinformazione) per valutare il testo o le immagini generate dagli utenti, portando a una moderazione più sfumata e coerente, allineata alle politiche della piattaforma e alle linee guida sull'etica dell'IA.

IA costituzionale e termini correlati

  • Reinforcement Learning from Human Feedback (RLHF): Sebbene entrambe mirino ad allineare l'IA, l'RLHF utilizza un feedback generato dagli esseri umani che valutano i risultati del modello. L'IA costituzionale utilizza principalmente un feedback generato dall'IA sulla base di una costituzione predefinita, rendendola potenzialmente più scalabile e coerente, anche se la qualità dipende fortemente dalla costituzione stessa.
  • Etica dell'IA e IA responsabile: l' etica dell'IA è l'ampio campo che studia le implicazioni morali dell'IA. L'IA responsabile comprende principi e pratiche (come l'equità, la trasparenza(XAI), la responsabilità, la privacy dei dati) per lo sviluppo e l'implementazione di sistemi di IA sicuri ed etici. L'IA costituzionale è un metodo tecnico specifico utilizzato durante l'addestramento dei modelli per implementare determinati principi etici e contribuire allo sviluppo responsabile dell'IA.

Applicazioni e potenzialità future

Attualmente l'Intelligenza Artificiale Costituzionale viene applicata principalmente ai LLM per compiti come la generazione di dialoghi e la sintesi di testi. Tuttavia, i principi sottostanti potrebbero potenzialmente estendersi ad altri domini dell'IA, tra cui la Computer Vision (CV). Ad esempio:

Lo sviluppo e il perfezionamento di costituzioni efficaci e la garanzia che l'IA vi si attenga fedelmente in diversi contesti rimangono aree di ricerca attive all'interno di organizzazioni come Google AI e l'AI Safety Institute. Strumenti come Ultralytics HUB facilitano l'addestramento e l'impiego di vari modelli di IA e l'incorporazione di principi simili a quelli dell'IA costituzionale potrebbe diventare sempre più importante per garantire un impiego responsabile.

Leggi tutto