Glossário

IA Constitucional

Descobre como a IA Constitucional garante resultados de IA éticos, seguros e imparciais, alinhando os modelos com princípios predefinidos e valores humanos.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A IA Constitucional é uma abordagem concebida para alinhar os modelos de Inteligência Artificial (IA), em particular os Modelos de Linguagem de Grande Dimensão (LLM), com os valores humanos e os princípios éticos. Em vez de depender apenas do feedback humano direto para orientar o comportamento, este método utiliza um conjunto predefinido de regras ou princípios - uma "constituição" - para ajudar a IA a avaliar e rever as suas próprias respostas durante o processo de formação. O objetivo é criar sistemas de IA que sejam úteis, inofensivos e honestos, reduzindo o risco de gerar resultados tendenciosos, tóxicos ou indesejáveis. Esta técnica, criada por investigadores da Anthropicvisa tornar o alinhamento da IA mais escalável e menos dependente de uma supervisão humana extensiva.

Como funciona a IA constitucional

A ideia central da IA Constitucional envolve um processo de formação em duas fases:

  1. Fase de aprendizagem supervisionada: Inicialmente, um modelo de linguagem padrão pré-treinado é solicitado com cenários concebidos para obter respostas potencialmente prejudiciais ou indesejáveis. O modelo gera várias respostas. Estas respostas são depois criticadas por outro modelo de IA com base nos princípios delineados na constituição. A IA critica as suas próprias respostas, identificando as razões pelas quais uma resposta pode violar um princípio (por exemplo, não ser consensual ou ser prejudicial). O modelo é então aperfeiçoado com base nestas respostas autocríticas, aprendendo a gerar resultados que se alinham melhor com a constituição. Esta fase utiliza técnicas de aprendizagem supervisionada.
  2. Fase de aprendizagem por reforço: Após a fase supervisionada, o modelo é aperfeiçoado utilizando a Aprendizagem por Reforço (RL). Nesta fase, a IA gera respostas e um modelo de IA (treinado com base na constituição) avalia essas respostas, fornecendo um sinal de recompensa com base no grau de adesão aos princípios constitucionais. Este processo, muitas vezes designado por Aprendizagem por Reforço a partir do Feedback da IA (RLAIF), optimiza o modelo para produzir consistentemente resultados alinhados com a constituição, ensinando essencialmente a IA a preferir um comportamento alinhado com a constituição.

Este mecanismo de auto-correção, orientado por princípios explícitos, distingue a IA Constitucional de métodos como a Aprendizagem por Reforço a partir de Feedback Humano (RLHF), que depende fortemente de rotuladores humanos que classificam os resultados do modelo.

Conceitos-chave

  • A Constituição: Não se trata de um documento jurídico literal, mas de um conjunto de princípios éticos explícitos ou de regras que orientam o comportamento da IA. Estes princípios podem ser derivados de várias fontes, tais como declarações universais (como a Declaração dos Direitos Humanos das Nações Unidas), termos de serviço ou diretrizes éticas personalizadas adaptadas a aplicações específicas. A eficácia depende em grande medida da qualidade e da abrangência destes princípios.
  • Autocrítica e revisão da IA: Um aspeto fundamental em que o modelo de IA aprende a avaliar os seus próprios resultados em relação à constituição e a gerar revisões. Este ciclo de feedback interno reduz a necessidade de intervenção humana constante.
  • Alinhamento da IA: A IA constitucional é uma técnica que contribui para o campo mais vasto do alinhamento da IA, que procura assegurar que os objectivos e comportamentos dos sistemas de IA se alinham com as intenções e valores humanos. Aborda as preocupações sobre a segurança da IA e o potencial para consequências não intencionais.
  • Escalabilidade: Ao automatizar o processo de feedback utilizando a IA baseada na constituição, este método pretende ser mais escalável do que o RLHF, que pode ser trabalhoso e introduzir potencialmente preconceitos humanos(preconceitos algorítmicos).

Exemplos do mundo real

  1. Modelos Claude daAnthropic: O exemplo mais proeminente é a família de LLMs Claude da Anthropic. Anthropic desenvolveu a Constitutional AI especificamente para treinar estes modelos para serem "úteis, inofensivos e honestos". A constituição utilizada inclui princípios que desencorajam a criação de conteúdos tóxicos, discriminatórios ou ilegais, baseados em parte na Declaração dos Direitos Humanos da ONU e noutras fontes éticas. Lê mais no seu artigo sobre a IA Constitucional Colectiva.
  2. Sistemas de moderação de conteúdos com IA: Os princípios constitucionais da IA poderiam ser aplicados para treinar modelos para plataformas de moderação de conteúdos. Em vez de depender exclusivamente de moderadores humanos ou de filtros rígidos de palavras-chave, uma IA poderia utilizar uma constituição que definisse conteúdos nocivos (por exemplo, discurso de ódio, desinformação) para avaliar textos ou imagens gerados pelos utilizadores, conduzindo a uma moderação mais matizada e consistente, alinhada com as políticas da plataforma e as orientações éticas da IA.

IA constitucional vs. termos relacionados

  • Aprendizagem por reforço a partir de feedback humano (RLHF): Embora ambas tenham como objetivo alinhar a IA, a RLHF utiliza o feedback gerado por humanos que classificam os resultados do modelo. A IA constitucional utiliza principalmente o feedback gerado pela IA com base numa constituição predefinida, tornando-a potencialmente mais escalável e consistente, embora a qualidade dependa muito da própria constituição.
  • Ética da IA e IA responsável: A ética da IA é o vasto campo que estuda as implicações morais da IA. A IA responsável engloba princípios e práticas (como a equidade, a transparência(XAI), a responsabilidade, a privacidade dos dados) para desenvolver e implementar sistemas de IA de forma segura e ética. A IA constitucional é um método técnico específico utilizado durante a formação de modelos para implementar determinados princípios éticos e contribuir para o desenvolvimento responsável da IA.

Aplicações e potencialidades futuras

Atualmente, a IA constitucional é aplicada principalmente aos LLMs para tarefas como a geração de diálogos e a sumarização de textos. No entanto, os princípios subjacentes podem ser alargados a outros domínios da IA, incluindo a Visão por Computador (CV). Por exemplo:

O desenvolvimento e o aperfeiçoamento de constituições eficazes, juntamente com a garantia de que a IA adere fielmente a elas em diversos contextos, continuam a ser áreas activas de investigação em organizações como Google AI e o AI Safety Institute. Ferramentas como o Ultralytics HUB facilitam a formação e a implementação de vários modelos de IA, e a incorporação de princípios semelhantes aos da IA Constitucional pode tornar-se cada vez mais importante para garantir uma implementação responsável.

Lê tudo