Yarım duyarlıklı (FP16) hesaplamanın daha hızlı olması, bellek kullanımının azalması ve model dağıtımının verimli olması sayesinde yapay zekayı nasıl hızlandırdığını keşfedin.
Yarım hassasiyet, bilgisayar belleğinde 16 bit yer kaplayan ikili kayan noktalı bir bilgisayar sayı formatıdır ve genellikle FP16 olarak anılmaktadır. Hızla gelişen teknoloji alanında derin öğrenme, bu format güçlü bir geleneksel olarak sayısal hesaplamalar için kullanılan standart 32 bit tek hassasiyetli (FP32) biçime alternatiftir. Tarafından Her bir sayıyı temsil etmek için gereken bit sayısını azaltarak, yarım hassasiyet bellek maliyetini önemli ölçüde düşürür. için bant genişliği basıncı ve depolama gereksinimleri model ağırlıkları ve aktivasyonları. Bu verimlilik şunları sağlar araştırmacılar ve mühendisler yetiştirmek için sinir ağları veya donanım üzerinde model dağıtımı büyük ölçüde tehlikeye atmadan sınırlı kaynaklar tahminlerin doğruluğu.
IEEE 754 standardı kayan nokta yapısını tanımlar sayıları, burada FP16 işaret için 1 bit, üs için 5 bit ve kesir (mantissa) için 10 bit ayırır. Bu kompakt gösterim, üs için 8 bit ve kesir için 23 bit kullanan FP32 ile tezat oluşturmaktadır. Bu 'de FP16 kullanmanın birincil avantajı bilgisayarla görme ve diğer yapay zeka görevleri matematiksel işlemlerin hızlandırılması. Modern donanım hızlandırıcıları, örneğin NVIDIA Tensor Çekirdekleri, özel olarak tasarlanmıştır matris çarpımlarını tek hassasiyetli işlemlerden önemli ölçüde daha yüksek hızlarda yarım hassasiyetle gerçekleştirmek için.
Bununla birlikte, azaltılmış bit sayısı daha küçük bir dinamik aralık ve daha düşük hassasiyet anlamına gelir. Bu potansiyel olarak şunlara yol açabilir sayısal kararsızlık, örneğin kaybolan gradyanlar, sayıların çok fazla bilgisayarın sıfırdan farklı olarak temsil etmesi için küçüktür. Bunu hafifletmek için geliştiriciler genellikle karma hassasiyet stratejileri, dinamik olarak Yarım hassasiyetin hızından faydalanırken kararlılığı korumak için eğitim sırasında FP16 ve FP32 arasında geçiş yapın.
Yarım hassasiyet, modern yapay zeka iş akışlarında, özellikle de yüksek verim veya düşük hassasiyet gerektiren senaryolarda her yerde bulunur. gecikme.
Gibi çerçeveler PyTorch ve kütüphaneler gibi
ultralytics yarım hassasiyetten yararlanmayı kolaylaştırır. Aşağıdaki örnek nasıl yapılacağını göstermektedir
bir YOLO11 modelini TensorRT FP16 kullanarak format, bir
NVIDIA GPU'larda çıkarım hızını optimize etmek için yaygın bir uygulamadır.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Export the model to TensorRT engine with half-precision enabled
# The 'half=True' argument ensures weights are converted to FP16
model.export(format="engine", half=True)
Yarım hassasiyeti anlamak, onu sözlükte bulunan ilgili optimizasyon tekniklerinden ayırmayı gerektirir:
Geliştiriciler bu formatlarda uzmanlaşarak model dağıtım stratejileri aşağıdakiler için optimize edilmiştir Projelerinin özel donanım ve performans gereksinimleri.

