Sözlük

Anayasal Yapay Zeka

Anayasal YZ'nin, modelleri önceden tanımlanmış ilkeler ve insani değerlerle uyumlu hale getirerek etik, güvenli ve tarafsız YZ çıktılarını nasıl sağladığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Anayasal YZ, Yapay Zeka ( YZ ) modellerini, özellikle de Büyük Dil Modellerini (LLM'ler) insani değerler ve etik ilkelerle uyumlu hale getirmek için tasarlanmış bir yaklaşımdır. Bu yöntem, davranışı yönlendirmek için yalnızca doğrudan insan geri bildirimine güvenmek yerine, YZ'nin eğitim sürecinde kendi yanıtlarını değerlendirmesine ve gözden geçirmesine yardımcı olmak için önceden tanımlanmış bir dizi kural veya ilke (bir "anayasa") kullanır. Amaç, önyargılı, zehirli veya başka türlü istenmeyen çıktılar üretme riskini azaltarak yararlı, zararsız ve dürüst yapay zeka sistemleri oluşturmaktır. Araştırmacıların öncülük ettiği bu teknik AnthropicYZ hizalamasını daha ölçeklenebilir ve kapsamlı insan denetimine daha az bağımlı hale getirmeyi amaçlamaktadır.

Anayasal Yapay Zeka Nasıl Çalışır?

Anayasal Yapay Zekanın arkasındaki temel fikir, iki aşamalı bir eğitim sürecini içerir:

  1. Denetimli Öğrenme Aşaması: Başlangıçta, önceden eğitilmiş standart bir dil modeline potansiyel olarak zararlı veya istenmeyen yanıtları ortaya çıkarmak için tasarlanmış senaryolar sorulur. Model çeşitli yanıtlar üretir. Bu yanıtlar daha sonra anayasada belirtilen ilkelere dayalı olarak başka bir yapay zeka modeli tarafından eleştirilir. YZ, bir yanıtın neden bir ilkeyi ihlal edebileceğini (örneğin, rıza dışı veya zararlı olmak) belirleyerek kendi yanıtlarını eleştirir. Model daha sonra bu öz eleştiri yanıtları üzerinde ince ayar yaparak anayasaya daha iyi uyum sağlayan çıktılar üretmeyi öğrenir. Bu aşamada denetimli öğrenme teknikleri kullanılır.
  2. Takviyeli Öğrenme Aşaması: Denetimli aşamanın ardından model, Takviyeli Öğrenme (RL) kullanılarak daha da geliştirilir. Bu aşamada, YZ yanıtlar üretir ve bir YZ modeli (anayasa kullanılarak eğitilmiş) bu yanıtları değerlendirerek anayasal ilkelere ne kadar iyi uyduklarına bağlı olarak bir ödül sinyali sağlar. Genellikle YZ Geri Bildiriminden Güçlendirme Öğrenimi (RLAIF) olarak adlandırılan bu süreç, modeli sürekli olarak anayasaya uygun çıktılar üretecek şekilde optimize eder ve esasen YZ'ye anayasaya uygun davranışı tercih etmeyi öğretir.

Açık ilkeler tarafından yönlendirilen bu kendi kendini düzeltme mekanizması, Anayasal YZ'yi, model çıktılarını değerlendiren insan etiketleyicilere büyük ölçüde dayanan İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) gibi yöntemlerden ayırır.

Anahtar Kavramlar

  • Anayasa: Bu, gerçek bir yasal belge değil, YZ'nin davranışını yönlendiren bir dizi açık etik ilke veya kuraldır. Bu ilkeler, evrensel bildirgeler ( BM İnsan Hakları Bildirgesi gibi), hizmet şartları veya belirli uygulamalara göre uyarlanmış özel etik yönergeler gibi çeşitli kaynaklardan türetilebilir. Etkililik büyük ölçüde bu ilkelerin kalitesine ve kapsamlılığına bağlıdır.
  • YZ Öz Eleştiri ve Revizyon: YZ modelinin kendi çıktılarını anayasaya karşı değerlendirmeyi ve revizyonlar üretmeyi öğrendiği temel bir özellik. Bu iç geri bildirim döngüsü, sürekli insan müdahalesi ihtiyacını azaltır.
  • YZ Hizalama: Anayasal YZ, YZ sistemlerinin hedeflerinin ve davranışlarının insan niyetleri ve değerleriyle uyumlu olmasını sağlamayı amaçlayan daha geniş YZ hizalama alanına katkıda bulunan bir tekniktir. YZ güvenliği ve istenmeyen sonuçların ortaya çıkma potansiyeli ile ilgili endişeleri giderir.
  • Ölçeklenebilirlik: Bu yöntem, anayasaya dayalı yapay zeka kullanarak geri bildirim sürecini otomatikleştirerek, emek yoğun olabilen ve potansiyel olarak insan önyargılarını(algoritmik önyargı) ortaya çıkarabilen RLHF'den daha ölçeklenebilir olmayı amaçlamaktadır.

Gerçek Dünyadan Örnekler

  1. Anthropic'in Claude Modelleri: En belirgin örnek Anthropic'in Claude LLM ailesidir. Anthropic , bu modelleri "yararlı, zararsız ve dürüst" olacak şekilde eğitmek için özel olarak Anayasal YZ geliştirmiştir. Kullanılan anayasa, kısmen BM İnsan Hakları Beyannamesi ve diğer etik kaynaklara dayanan toksik, ayrımcı veya yasadışı içerik üretimini caydıran ilkeler içermektedir. Kolektif Anayasal Yapay Zeka üzerine yazdıkları makalede daha fazlasını okuyun.
  2. Yapay Zeka İçerik Moderasyon Sistemleri: Anayasal YZ ilkeleri, içerik moderasyon platformlarına yönelik modelleri eğitmek için uygulanabilir. Yalnızca insan moderatörlere veya katı anahtar kelime filtrelerine güvenmek yerine, bir YZ, kullanıcı tarafından oluşturulan metin veya görüntüleri değerlendirmek için zararlı içeriği (örneğin, nefret söylemi, yanlış bilgilendirme) tanımlayan bir anayasa kullanabilir ve bu da platform politikaları ve YZ etik yönergeleri ile uyumlu daha incelikli ve tutarlı bir moderasyona yol açabilir.

Anayasal Yapay Zeka ve İlgili Terimler

  • İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF): Her ikisi de YZ'yi hizalamayı amaçlasa da, RLHF model çıktılarını derecelendiren insanlar tarafından oluşturulan geri bildirimleri kullanır. Anayasal YZ öncelikle önceden tanımlanmış bir anayasaya dayalı olarak YZ tarafından üretilen geri bildirimleri kullanır, bu da onu potansiyel olarak daha ölçeklenebilir ve tutarlı hale getirir, ancak kalite büyük ölçüde anayasanın kendisine bağlıdır.
  • YZ Etiği ve Sorumlu YZ: YZ Etiği, YZ'nin ahlaki sonuçlarını inceleyen geniş bir alandır. Sorumlu YZ, YZ sistemlerini güvenli ve etik bir şekilde geliştirmek ve dağıtmak için ilke ve uygulamaları ( adalet, şeffaflık(XAI), hesap verebilirlik, veri gizliliği gibi) kapsar. Anayasal YZ, belirli etik ilkeleri uygulamak ve sorumlu YZ gelişimine katkıda bulunmak için model eğitimi sırasında kullanılan özel bir teknik yöntemdir.

Uygulamalar ve Gelecek Potansiyeli

Şu anda, Anayasal YZ, diyalog oluşturma ve metin özetleme gibi görevler için öncelikle LLM' lere uygulanmaktadır. Bununla birlikte, temel ilkeler potansiyel olarak Bilgisayarla Görme (CV) dahil olmak üzere diğer YZ alanlarına da genişletilebilir. Örneğin:

  • Anayasal kurallara dayalı olarak zararlı, önyargılı veya rıza dışı görüntüler oluşturmaktan kaçınmak için görüntü oluşturma modellerine ( Kararlı Difüzyon veya DALL-E gibi) rehberlik etmek.
  • Otonom araçlarda veya robotikte karar verme sürecini bilgilendirmek, eylemlerin bir anayasada tanımlanan güvenlik protokolleriyle uyumlu olmasını sağlamak.
  • Demografik önyargıya karşı ilkeleri dahil ederek yüz tanıma veya nesne algılama gibi CV görevlerinde adaleti sağlamak, potansiyel olarak aşağıdaki gibi modelleri geliştirmek Ultralytics YOLO11.

Etkili anayasaların geliştirilmesi ve iyileştirilmesinin yanı sıra YZ'nin çeşitli bağlamlarda bunlara sadakatle bağlı kalmasını sağlamak, Google YZ ve YZ Güvenlik Enstitüsü gibi kuruluşlarda aktif araştırma alanları olmaya devam etmektedir. Ultralytics HUB gibi araçlar, çeşitli YZ modellerinin eğitimini ve dağıtımını kolaylaştırmaktadır ve Anayasal YZ'ye benzer ilkelerin dahil edilmesi, sorumlu dağıtımı sağlamak için giderek daha önemli hale gelebilir.

Tümünü okuyun