Glossário

IA constitucional

Descubra como a IA constitucional garante resultados de IA éticos, seguros e imparciais, alinhando os modelos com princípios predefinidos e valores humanos.

A IA Constitucional é uma abordagem concebida para alinhar os modelos de Inteligência Artificial (IA), em particular os Modelos de Linguagem de Grande Dimensão (LLM), com os valores humanos e os princípios éticos. Em vez de se basear apenas no feedback humano direto para orientar o comportamento, este método utiliza um conjunto predefinido de regras ou princípios - uma "constituição" - para ajudar a IA a avaliar e rever as suas próprias respostas durante o processo de formação. O objetivo é criar sistemas de IA que sejam úteis, inofensivos e honestos, reduzindo o risco de gerar resultados tendenciosos, tóxicos ou indesejáveis. Esta técnica, criada por investigadores da Anthropic, tem como objetivo tornar o alinhamento da IA mais escalável e menos dependente de uma supervisão humana extensiva.

Como funciona a IA constitucional

A ideia central da IA Constitucional envolve um processo de formação em duas fases:

  1. Fase de aprendizagem supervisionada: Inicialmente, um modelo de linguagem padrão pré-treinado é solicitado com cenários concebidos para obter respostas potencialmente prejudiciais ou indesejáveis. O modelo gera várias respostas. Estas respostas são depois criticadas por outro modelo de IA com base nos princípios delineados na constituição. A IA critica as suas próprias respostas, identificando as razões pelas quais uma resposta pode violar um princípio (por exemplo, não ser consensual ou ser prejudicial). O modelo é então aperfeiçoado com base nestas respostas autocríticas, aprendendo a gerar resultados que se alinham melhor com a constituição. Esta fase utiliza técnicas de aprendizagem supervisionada.
  2. Fase de aprendizagem por reforço: Após a fase supervisionada, o modelo é aperfeiçoado utilizando a Aprendizagem por Reforço (RL). Nesta fase, a IA gera respostas e um modelo de IA (treinado utilizando a constituição) avalia essas respostas, fornecendo um sinal de recompensa com base no grau de adesão aos princípios constitucionais. Este processo, muitas vezes designado por Aprendizagem por Reforço a partir do Feedback da IA (RLAIF), optimiza o modelo para produzir consistentemente resultados alinhados com a constituição, ensinando essencialmente a IA a preferir comportamentos alinhados com a constituição.

Este mecanismo de auto-correção, orientado por princípios explícitos, distingue a IA constitucional de métodos como a Aprendizagem por Reforço a partir de Feedback Humano (RLHF), que depende fortemente de rotuladores humanos que classificam os resultados do modelo.

Conceitos-chave

  • A Constituição: Não se trata de um documento jurídico literal, mas de um conjunto de princípios ou regras éticas explícitas que orientam o comportamento da IA. Estes princípios podem ser derivados de várias fontes, tais como declarações universais (como a Declaração dos Direitos Humanos das Nações Unidas), termos de serviço ou diretrizes éticas personalizadas adaptadas a aplicações específicas. A eficácia depende em grande medida da qualidade e da abrangência destes princípios.
  • Autocrítica e revisão da IA: Um aspeto fundamental em que o modelo de IA aprende a avaliar os seus próprios resultados em relação à constituição e a gerar revisões. Este ciclo de feedback interno reduz a necessidade de intervenção humana constante.
  • Alinhamento da IA: A IA constitucional é uma técnica que contribui para o domínio mais vasto do alinhamento da IA, que procura garantir que os objectivos e comportamentos dos sistemas de IA se alinham com as intenções e valores humanos. Aborda preocupações sobre a segurança da IA e o potencial para consequências não intencionais.
  • Escalabilidade: Ao automatizar o processo de feedback utilizando a IA baseada na constituição, este método pretende ser mais escalável do que o RLHF, que pode ser trabalhoso e introduzir potencialmente preconceitos humanos(preconceitos algorítmicos).

Exemplos do mundo real

  1. Modelos Claude da Anthropic: O exemplo mais proeminente é a família de LLMs Claude da Anthropic. A Anthropic desenvolveu a Constitutional AI especificamente para treinar estes modelos para serem "úteis, inofensivos e honestos". A constituição utilizada inclui princípios que desencorajam a criação de conteúdos tóxicos, discriminatórios ou ilegais, baseados em parte na Declaração dos Direitos Humanos da ONU e noutras fontes éticas. Leia mais no seu artigo sobre a IA Constitucional Colectiva.
  2. Sistemas de moderação de conteúdos com IA: Os princípios constitucionais da IA poderiam ser aplicados para treinar modelos para plataformas de moderação de conteúdos. Em vez de depender exclusivamente de moderadores humanos ou de filtros rígidos de palavras-chave, uma IA poderia utilizar uma constituição que definisse conteúdos nocivos (por exemplo, discurso de ódio, desinformação) para avaliar textos ou imagens gerados pelos utilizadores, conduzindo a uma moderação mais matizada e consistente, alinhada com as políticas da plataforma e as orientações éticas da IA.

IA constitucional vs. termos relacionados

  • Aprendizagem por reforço com base no feedback humano (RLHF): Embora ambos tenham como objetivo alinhar a IA, a RLHF utiliza feedback gerado por humanos que classificam os resultados do modelo. A IA constitucional utiliza principalmente o feedback gerado pela IA com base numa constituição predefinida, o que a torna potencialmente mais escalável e consistente, embora a qualidade dependa muito da própria constituição.
  • Ética da IA e IA responsável: A ética da IA é o vasto domínio que estuda as implicações morais da IA. A IA responsável engloba princípios e práticas (como a equidade, a transparência(XAI), a responsabilidade, a privacidade dos dados) para desenvolver e implementar sistemas de IA de forma segura e ética. A IA constitucional é um método técnico específico utilizado durante a formação de modelos para implementar determinados princípios éticos e contribuir para o desenvolvimento responsável da IA.

Aplicações e potencialidades futuras

Atualmente, a IA constitucional é aplicada principalmente a LLMs para tarefas como a geração de diálogos e a sumarização de textos. No entanto, os princípios subjacentes podem potencialmente estender-se a outros domínios da IA, incluindo a Visão por Computador (CV). Por exemplo:

O desenvolvimento e o aperfeiçoamento de constituições eficazes, juntamente com a garantia de que a IA adere fielmente a elas em diversos contextos, continuam a ser áreas activas de investigação em organizações como a Google AI e o AI Safety Institute. Ferramentas como o Ultralytics HUB facilitam a formação e a implementação de vários modelos de IA, e a incorporação de princípios semelhantes aos da IA Constitucional pode tornar-se cada vez mais importante para garantir uma implementação responsável.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência