Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

IA Constitucional

Descubra como a IA Constitucional garante saídas de IA éticas, seguras e imparciais, alinhando modelos com princípios predefinidos e valores humanos.

A IA Constitucional (CAI) é uma metodologia de formação concebida para alinhar sistemas de Inteligência Artificial (IA) com os valores humanos, incorporando um conjunto predefinido de regras, ou uma "constituição", diretamente no processo de formação processo de formação. Ao contrário das abordagens tradicionais que dependem fortemente do feedback humano para cada resultado específico, a CAI permite que um permite que um modelo critique e reveja o seu próprio comportamento com base em princípios como a utilidade, a honestidade e a inocuidade. Esta abordagem responde à necessidade crescente de segurança da IA automatizando o processo de alinhamento, tornando possível a formação de assistentes capazes de respeitar as diretrizes éticas sem exigir uma quantidade incontrolável de supervisão humana. Ao governar o comportamento do modelo através de instruções instruções explícitas, os programadores podem reduzir algorítmica e evitar a geração de conteúdo conteúdo tóxico ou inseguro.

Como Funciona a IA Constitucional

O fluxo de trabalho da IA constitucional envolve normalmente duas fases distintas que vão para além da aprendizagem supervisionada. Estas fases permitem que o modelo Estas fases permitem que o modelo aprenda a partir do seu próprio feedback, guiado pela Constituição, e não apenas a partir de etiquetas humanas externas.

  1. Aprendizagem supervisionada com auto-crítica: O modelo gera respostas a solicitações e depois critica e depois critica o seu próprio resultado com base nos princípios da constituição. Se a resposta violar uma regra - por exemplo, por ser rude ou por exemplo, sendo rude ou tendenciosa - o modelo revê-a. Isto cria um conjunto de dados de alta qualidade de exemplos conformes para para o treino do modelo.
  2. Aprendizagem por reforço a partir do feedback da IA (RLAIF): Nesta fase, o modelo ou um modelo de feedback separado avalia pares de respostas e seleciona a que melhor se adapta à constituição. Estes dados de preferência são utilizados para treinar um modelo de preferências, que depois orienta o modelo principal utilizando a Aprendizagem por reforço. Isto efetivamente substitui efetivamente as etiquetas de preferências humanas por etiquetas geradas por IA, simplificando o processo de afinação.

IA constitucional vs. RLHF

É fundamental distinguir a CAI da Aprendizagem por Reforço a partir do Feedback Humano (RLHF), uma vez que representam estratégias diferentes para o alinhamento.

  • RLHF: Depende de anotadores humanos para classificar manualmente os resultados do modelo. Embora eficaz, este processo é difícil de escalar e pode expor os trabalhadores humanos a conteúdos perturbadores ou traumáticos durante a rotulagem dos dados.
  • IA Constitucional: Utiliza o RLAIF para automatizar o ciclo de feedback. Ao definir a "constituição" explicitamente, os programadores ganham maior transparência no comportamento da IA, uma vez que as regras decisões são escritas em texto claro em vez de serem aprendidas implicitamente a partir de milhares de avaliações humanas individuais. Isto aumenta a escalabilidade e protege os anotadores humanos.

Aplicações no Mundo Real

Embora a IA constitucional tenha tido origem no contexto dos Grandes Modelos Linguísticos (LLM) desenvolvidos por organizações como a Anthropicos seus princípios estão a ser cada vez mais adaptados para tarefas de aprendizagem automática mais vastas, incluindo Visão por computador (CV).

  • Chatbots éticos: A CAI é amplamente utilizada para formar agentes de conversação que se recusam a gerar discurso de ódio, instruções para actos ilegais ou conteúdos politicamente tendenciosos. Isto garante que ferramentas de IA generativas permanecem seguras para pública.
  • Sistemas de visão críticos para a segurança: Nos veículos autónomos, uma abordagem "constitucional" pode definir regras hierárquicas para a tomada de decisões. Por exemplo, uma regra que declare "a segurança humana sobrepõe-se à eficiência do tráfego" pode orientar o modelo ao analisar cenários rodoviários complexos, complexos, garantindo que os resultados da deteção de objectos são interpretados tendo a segurança como prioridade.

Implementação de verificações de políticas na inferência

Embora a formação completa da IA constitucional envolva ciclos de feedback complexos, os programadores podem aplicar o conceito de "controlos constitucionais" durante a inferência para filtrar os resultados com base em políticas políticas de segurança. O exemplo seguinte demonstra a utilização do YOLO11 para detect objectos e aplicar uma regra de segurança hipotética para filtrar as detecções de baixa confiança, garantindo uma elevada fiabilidade.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Futuro do alinhamento da IA

medida que os modelos evoluem para a Inteligência Artificial Geral (AGI), cresce a importância de estratégias de alinhamento robustas como a IA Constitucional. Estes métodos são essenciais para para cumprir as normas emergentes de organismos como o Instituto de Segurança de IA do NIST.

Ultralytics está a investigar ativamente a forma de integrar caraterísticas de segurança e alinhamento no ciclo de vida do modelo. A arquitetura A futura arquitetura YOLO26, atualmente em I&D, visa incorporar caraterísticas avançadas de interpretabilidade que se alinham com estes objectivos de segurança, assegurando que a implantação de modelos permaneça segura e eficiente em todos os sectores. Além disso, a plataforma Ultralytics unificada fornecerá ferramentas para gerir a governação dos dados e monitorizar o comportamento do modelo, facilitando a criação de sistemas de IA responsáveis.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora