Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Inteligencia Artificial Constitucional

Descubre cómo la IA Constitucional garantiza resultados éticos, seguros e imparciales al alinear los modelos con principios predefinidos y valores humanos.

La Inteligencia Artificial Constitucional (IAC) es una metodología de formación diseñada para alinear sistemas de Inteligencia Artificial (IA) (IA) con los valores humanos incorporando un conjunto predefinido de reglas, o una "constitución", directamente en el proceso de formación. formación. A diferencia de los enfoques tradicionales, que dependen en gran medida de la información humana para cada resultado específico, la CAI permite a un modelo criticar y revisar sus propios resultados. modelo critique y revise su propio comportamiento basándose en principios como la utilidad, la honradez y la inocuidad. Este enfoque de enfoque responde a la creciente necesidad de seguridad de la IA automatizando el proceso de alineación, lo que permite formar asistentes capaces que respeten las directrices éticas sin necesidad de una supervisión humana excesiva. Al gobernar el comportamiento del modelo mediante instrucciones explícitas, los desarrolladores el sesgo algorítmico y evitar la generación de contenidos tóxicos o inseguros.

Cómo funciona la IA Constitucional

El flujo de trabajo de la IA constitucional suele constar de dos fases distintas que van más allá del aprendizaje supervisado. Estas fases permiten al modelo aprenda de su propia información, guiado por la Constitución, en lugar de basarse únicamente en etiquetas humanas externas.

  1. Aprendizaje supervisado con autocrítica: El modelo genera respuestas a las preguntas y luego critica su propio resultado basándose en los principios constitucionales. Si la respuesta infringe una norma -por ejemplo, por ser grosera o sesgada- el modelo la revisa. o tendenciosa, el modelo la revisa. De este modo se crea un conjunto de datos de alta calidad de ejemplos conformes para formación del modelo.
  2. Aprendizaje por refuerzo a partir de la retroalimentación de la IA (RLAIF): En esta etapa, el modelo o un modelo de retroalimentación separado evalúa pares de respuestas y selecciona la que mejor se ajusta a la constitución. Estos datos de preferencia se utilizan para entrenar un modelo de preferencias, que luego guía al modelo principal mediante aprendizaje por refuerzo. De este modo preferencias humanas por otras generadas por la IA, lo que agiliza el proceso de ajuste. proceso de ajuste.

AI constitucional frente a RLHF

Es fundamental distinguir el CAI del Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), ya que representan diferentes estrategias de alineación.

  • RLHF: se basa en anotadores humanos que valoran manualmente los resultados de los modelos. Aunque eficaz, este proceso es difícil de escalar y puede exponer a los trabajadores humanos a contenidos perturbadores o traumáticos durante el etiquetado de los datos. durante el etiquetado de los datos.
  • IA constitucional: utiliza RLAIF para automatizar el circuito de retroalimentación. Al definir la explícitamente la "constitución", los desarrolladores transparencia en el comportamiento de la IA, ya que decisiones están escritas en un texto claro en lugar de aprenderse implícitamente de miles de valoraciones humanas. Esto mejora la escalabilidad y protege humanos.

Aplicaciones en el mundo real

Si bien la IA constitucional se originó en el contexto de grandes modelos lingüísticos (LLM) desarrollados por organizaciones como Anthropicsus principios se adaptan cada vez más a tareas de aprendizaje automático más amplias, como la Visión por ordenador (CV).

  • Chatbots éticos: La CAI se utiliza ampliamente para formar agentes conversacionales que se nieguen a generar que se nieguen a generar discursos de odio, instrucciones para cometer actos ilegales o contenidos políticamente sesgados. Esto garantiza que herramientas de IA generativa sigan siendo seguras públicas.
  • Sistemas de visión de seguridad crítica: En vehículos autónomos, un enfoque "constitucional" puede definir reglas jerárquicas para la toma de decisiones. Por ejemplo, una regla que diga "la seguridad humana prevalece sobre la eficiencia del tráfico" puede guiar el modelo al analizar escenas de carretera complejas, garantizar que los resultados de la detección la seguridad como prioridad.

Verificación de políticas en la inferencia

Aunque el entrenamiento completo de la IA constitucional implica complejos bucles de retroalimentación, los desarrolladores pueden aplicar el concepto de "controles constitucionales" durante durante la inferencia para filtrar los resultados de seguridad. El siguiente ejemplo muestra el uso de YOLO11 para detect objetos y aplicar una regla de seguridad hipotética para filtrar las detecciones de baja confianza, garantizando una alta fiabilidad.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

El futuro de la alineación de la IA

A medida que los modelos evolucionan hacia la Inteligencia General Artificial (AGI), crece la importancia de estrategias de alineación sólidas como la IA Constitucional. Estos métodos son esenciales para cumplir las normas emergentes de organismos como el Instituto de Seguridad de la IA del NIST.

Ultralytics investiga activamente cómo integrar las funciones de seguridad y alineación en el ciclo de vida del modelo. La arquitectura YOLO26, actualmente en fase de I+D, pretende incorporar funciones avanzadas de interpretabilidad avanzadas que se ajusten a estos objetivos de el despliegue de modelos siga siendo seguro y eficiente en todos los sectores. Además, la plataforma unificada Ultralytics proporcionará herramientas para gestionar la gobernanza de los datos y supervisar el comportamiento de los modelos, facilitando la creación de sistemas de IA responsables.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora