Sözlük

Anayasal Yapay Zeka

Anayasal Yapay Zeka'nın, modelleri önceden tanımlanmış ilkelere ve insan değerlerine uyumlu hale getirerek etik, güvenli ve tarafsız yapay zeka çıktılarını nasıl sağladığını keşfedin.

Anayasal Yapay Zeka (CAI), aşağıdakileri uyumlu hale getirmek için tasarlanmış bir eğitim metodolojisidir Yapay Zeka (AI) sistemleri Önceden tanımlanmış bir dizi kuralı veya bir "anayasayı" doğrudan eğitimin içine yerleştirerek insani değerlerle süreç. Her bir çıktı için büyük ölçüde insan geri bildirimine dayanan geleneksel yaklaşımların aksine, CAI Yardımseverlik, dürüstlük ve zararsızlık gibi ilkeler temelinde kendi davranışlarını eleştirme ve gözden geçirme modeli. Bu yaklaşımı, YZ Güvenliğine yönelik artan ihtiyacı şu şekilde ele almaktadır hizalama sürecini otomatikleştirerek etik kurallara uyan yetenekli asistanların yetiştirilmesini mümkün kılmak yönetilemez miktarda insan gözetimi gerektirmeden. Modelin davranışını açık bir şekilde yöneterek talimatları sayesinde geliştiriciler algoritmik önyargıyı ortadan kaldırır ve zehirli veya güvenli olmayan içerik.

Anayasal Yapay Zeka Nasıl Çalışır

Anayasal YZ için iş akışı tipik olarak standartların ötesine geçen iki farklı aşama içerir denetimli öğrenme. Bu aşamalar aşağıdakilere izin verir Model, yalnızca harici insan etiketlerinden değil, anayasa tarafından yönlendirilen kendi geri bildirimlerinden öğrenir.

Öz Eleştiri ile Denetimli Öğrenme: Model, istemlere yanıtlar üretir ve ardından eleştirir anayasanın ilkelerine dayalı olarak kendi çıktısını oluşturur. Yanıt bir kuralı ihlal ederse - örneğin, kaba davranarak veya önyargılı - model bunu revize eder. Bu, aşağıdakiler için uyumlu örneklerden oluşan yüksek kaliteli bir veri kümesi oluşturur model eğitimi.
Yapay Zeka Geri Bildiriminden Takviyeli Öğrenme (RLAIF): Bu aşamada, model veya ayrı bir geri bildirim Model, yanıt çiftlerini değerlendirir ve anayasaya daha iyi uyanı seçer. Bu tercih verileri bir tercih modelini eğitmek için kullanılır ve bu model daha sonra ana modeli Takviyeli Öğrenme. Bu etkili bir şekilde insan tercih etiketlerini yapay zeka tarafından üretilen etiketlerle değiştirerek ince ayar süreci.

Anayasal YZ vs. RLHF

CAI'yi aşağıdakilerden ayırt etmek çok önemlidir İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF), hizalama için farklı stratejileri temsil ettikleri için.

RLHF: Model çıktılarını manuel olarak değerlendirmek için insan yorumculara dayanır. Etkili olmakla birlikte, bu süreç ölçeklendirilmesi zordur ve insan çalışanları rahatsız edici veya travmatik içeriğe maruz bırakabilir. veri etiketleme.
Anayasal Yapay Zeka: Geri bildirim döngüsünü otomatikleştirmek için RLAIF kullanır. Tanımlayarak "anayasa" açıkça, geliştiriciler daha fazla kazanıyor YZ davranışında şeffaflık, kurallar olarak sürüş kararları, binlerce bireysel insandan örtük olarak öğrenilmek yerine açık bir metin olarak yazılır derecelendirmeler. Bu, ölçeklenebilirliği artırır ve insanları korur Açıklayıcılar.

Gerçek Dünya Uygulamaları

Anayasal yapay zeka, insan hakları bağlamında ortaya çıkmış olsa da tarafından geliştirilen Büyük Dil Modelleri (LLM) gibi kuruluşlar Anthropicilkeleri giderek daha fazla benimsenmektedir dahil olmak üzere daha geniş makine öğrenimi görevleri için Bilgisayarla Görme (CV).

Etik Sohbet Robotları: CAI, üretmeyi reddeden diyalog ajanlarını eğitmek için yaygın olarak kullanılmaktadır nefret söylemi, yasa dışı eylemler için talimatlar veya siyasi olarak önyargılı içerik. Bu, aşağıdakileri sağlar Üretken yapay zeka araçları kamu için güvenli olmaya devam ediyor Dağıtım.
Güvenlik Açısından Kritik Görüş Sistemleri: İçinde otonom araçlar, bir "anayasal" yaklaşım karar alma süreçleri için hiyerarşik kurallar tanımlayabilir. Örneğin, aşağıdaki gibi bir kural "insan güvenliği trafik verimliliğinin önüne geçer" ilkesi, karmaşık yol sahnelerini analiz ederken modele rehberlik edebilir, nesne algılama sonuçlarının güvenlik öncelikli olarak yorumlanmıştır.

Çıkarsamada İlke Kontrollerinin Uygulanması

Tam Anayasal Yapay Zeka eğitimi karmaşık geri bildirim döngüleri içerirken, geliştiriciler şu konsepti uygulayabilir "anayasal kontroller" sırasında güvenlik temelinde çıktıları filtrelemek için çıkarım politikaları. Aşağıdaki örnek, aşağıdakilerin kullanımını göstermektedir YOLO11 nesneleri detect etmek ve bir Düşük güvenilirlikli tespitleri filtrelemek ve yüksek güvenilirlik sağlamak için varsayımsal güvenlik kuralı.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Yapay Zeka Hizalamanın Geleceği

Modeller geliştikçe Yapay Genel Zeka (AGI), Anayasal Yapay Zeka gibi sağlam hizalama stratejilerinin önemi artmaktadır. Bu yöntemler aşağıdakiler için gereklidir gibi kuruluşların yeni ortaya çıkan standartlarına uymak NIST Yapay Zeka Güvenlik Enstitüsü.

Ultralytics , güvenlik ve hizalama özelliklerinin model yaşam döngüsüne nasıl entegre edileceğini aktif olarak araştırmaktadır. Bu Şu anda Ar-Ge aşamasında olan yeni YOLO26 mimarisi, gelişmiş yorumlanabilirliği bir araya getirmeyi hedefliyor Bu güvenlik hedefleriyle uyumlu özellikler, aşağıdakileri sağlar model dağıtımı güvenli ve verimli kalır tüm sektörlerde. Ayrıca, birleştirilmiş Ultralytics Platformu, veri yönetimini yönetmek için araçlar sağlayacak ve model davranışını izleyerek sorumlu yapay zeka sistemlerinin oluşturulmasını kolaylaştırır.

Anayasal Yapay Zeka

Sektörler arası iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

Anayasal Yapay Zeka Nasıl Çalışır

Anayasal YZ vs. RLHF

Gerçek Dünya Uygulamaları

Çıkarsamada İlke Kontrollerinin Uygulanması

Yapay Zeka Hizalamanın Geleceği

Bu kategoride daha fazla okuyun

Gürültü giderme için kendi kendine denetimli öğrenme: Adım adım ayrıntılı açıklama

Gelecekteki nesne algılama trendleri: Dikkat edilmesi gereken 7 önemli nokta

Ultralytics YOLO modelleri ile araç yeniden tanımlamayı geliştirme

Ultralytics topluluğuna katılın