Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Yarı Hassasiyet

Yarım duyarlıklı (FP16) hesaplamanın daha hızlı olması, bellek kullanımının azalması ve model dağıtımının verimli olması sayesinde yapay zekayı nasıl hızlandırdığını keşfedin.

Yarım hassasiyet, bilgisayar belleğinde 16 bit yer kaplayan ikili kayan noktalı bir bilgisayar sayı formatıdır ve genellikle FP16 olarak anılmaktadır. Hızla gelişen teknoloji alanında derin öğrenme, bu format güçlü bir geleneksel olarak sayısal hesaplamalar için kullanılan standart 32 bit tek hassasiyetli (FP32) biçime alternatiftir. Tarafından Her bir sayıyı temsil etmek için gereken bit sayısını azaltarak, yarım hassasiyet bellek maliyetini önemli ölçüde düşürür. için bant genişliği basıncı ve depolama gereksinimleri model ağırlıkları ve aktivasyonları. Bu verimlilik şunları sağlar araştırmacılar ve mühendisler yetiştirmek için sinir ağları veya donanım üzerinde model dağıtımı büyük ölçüde tehlikeye atmadan sınırlı kaynaklar tahminlerin doğruluğu.

Yarı Hassasiyet Mekaniği

IEEE 754 standardı kayan nokta yapısını tanımlar sayıları, burada FP16 işaret için 1 bit, üs için 5 bit ve kesir (mantissa) için 10 bit ayırır. Bu kompakt gösterim, üs için 8 bit ve kesir için 23 bit kullanan FP32 ile tezat oluşturmaktadır. Bu 'de FP16 kullanmanın birincil avantajı bilgisayarla görme ve diğer yapay zeka görevleri matematiksel işlemlerin hızlandırılması. Modern donanım hızlandırıcıları, örneğin NVIDIA Tensor Çekirdekleri, özel olarak tasarlanmıştır matris çarpımlarını tek hassasiyetli işlemlerden önemli ölçüde daha yüksek hızlarda yarım hassasiyetle gerçekleştirmek için.

Bununla birlikte, azaltılmış bit sayısı daha küçük bir dinamik aralık ve daha düşük hassasiyet anlamına gelir. Bu potansiyel olarak şunlara yol açabilir sayısal kararsızlık, örneğin kaybolan gradyanlar, sayıların çok fazla bilgisayarın sıfırdan farklı olarak temsil etmesi için küçüktür. Bunu hafifletmek için geliştiriciler genellikle karma hassasiyet stratejileri, dinamik olarak Yarım hassasiyetin hızından faydalanırken kararlılığı korumak için eğitim sırasında FP16 ve FP32 arasında geçiş yapın.

Yapay Zekada Gerçek Dünya Uygulamaları

Yarım hassasiyet, modern yapay zeka iş akışlarında, özellikle de yüksek verim veya düşük hassasiyet gerektiren senaryolarda her yerde bulunur. gecikme.

  1. Uç Yapay Zeka Dağıtımı: Modeller dağıtılırken dronlar, akıllı kameralar veya mobil cihazlar gibi uç yapay zeka cihazları telefonlar, bellek ve pil ömrü birinci sınıf kısıtlamalardır. Gibi bir modeli dönüştürmek YOLO11 model boyutunu yaklaşık olarak FP16'ya düşürür 50'lik bir oranla, gömülü sistemlerin sınırlı RAM'ine sığmasını sağlar. NVIDIA Jetson veya Raspberry Pi. Bu sayede daha hızlı çıkarım gecikmesi, gerçek zamanlı otonom navigasyon gibi uygulamalarda yanıt verebilirlik.
  2. Büyük Ölçekli Model Eğitimi: Aşağıdakiler gibi devasa mimarileri eğitmek Büyük Dil Modelleri (LLM'ler) veya temel görüş modelleri, terabaytlarca verinin işlenmesini gerektirir. FP16'nın kullanılması veri merkezlerinin parti boyutu sığar GPU belleği, önemli ölçüde kısaltma eğitim döngüleri. Bu verimlilik, hızlı denemeler yapmak ve yeni nesli yinelemek için kritik öneme sahiptir. yaklaşan YOLO26 gibi mimariler.

Ultralytics ile Yarım Hassasiyet Uygulama

Gibi çerçeveler PyTorch ve kütüphaneler gibi ultralytics yarım hassasiyetten yararlanmayı kolaylaştırır. Aşağıdaki örnek nasıl yapılacağını göstermektedir bir YOLO11 modelini TensorRT FP16 kullanarak format, bir NVIDIA GPU'larda çıkarım hızını optimize etmek için yaygın bir uygulamadır.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT engine with half-precision enabled
# The 'half=True' argument ensures weights are converted to FP16
model.export(format="engine", half=True)

İlgili Terimleri Ayırt Etme

Yarım hassasiyeti anlamak, onu sözlükte bulunan ilgili optimizasyon tekniklerinden ayırmayı gerektirir:

  • Yarım Hassasiyet ve Karışık Hassasiyet: Yarım hassasiyet özellikle 16 bit veri formatını ifade ederken, karışık hassasiyet bir eğitim tekniğidir. kaybını önlemek için ağır hesaplamalar için FP16 ve hassas biriktirmeler (ağırlık güncellemeleri gibi) için FP32'yi birleştirir. bilgi.
  • Yarım Hassasiyet vs. Model Niceleme: Yarım hassasiyet kayan nokta gösterimini korur, sadece bit genişliğini azaltır. Kuantizasyon tipik olarak ağırlıkları INT8 (8 bit tamsayılar) gibi tamsayı formatlarına dönüştürerek daha da fazla sıkıştırma ve hız sunar ancak aşağıdaki gibi dikkatli kalibrasyon teknikleri gerektirir Niceleme Farkında Eğitim (QAT) doğruluk bozulmasını önlemek için.
  • Yarım Hassasiyet ve Bfloat16: Bfloat16 (Brain Floating Point) bir alternatiftir TPU'larda sıklıkla kullanılan 16 bit format. Bu Dinamik aralığı korumak için FP32'nin 8 bitlik üssünü korur, ancak kesirdeki hassasiyeti feda eder, bu da onu kayıp ölçeklendirmesine ihtiyaç duymadan standart IEEE FP16'ya göre eğitim için genellikle daha kararlıdır.

Geliştiriciler bu formatlarda uzmanlaşarak model dağıtım stratejileri aşağıdakiler için optimize edilmiştir Projelerinin özel donanım ve performans gereksinimleri.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın