"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Çerez Ayarları
"Tüm Çerezleri Kabul Et" seçeneğine tıklayarak, sitede gezinmeyi geliştirmek, site kullanımını analiz etmek ve pazarlama çabalarımıza yardımcı olmak için cihazınızda çerezlerin saklanmasını kabul edersiniz. Daha fazla bilgi
Hugging Face'in açık kaynaklı araçlarının yapay zeka geliştirmeyi nasıl ilerlettiğini keşfetmeye odaklanan YOLO Vision 2024'ten bir açılış konuşmasını yeniden ziyaret ederken bize katılın.
Doğru algoritmaları seçmek, etkili bilgisayarlı görü çözümleri oluşturmanın sadece bir parçasıdır. Yapay zeka mühendisleri genellikle büyük veri kümeleriyle çalışır, modelleri belirli görevler için ince ayarlar ve yapay zeka sistemlerini gerçek dünya performansı için optimize eder. Yapay zeka uygulamaları daha hızlı benimsendikçe, bu süreçleri basitleştiren araçlara olan ihtiyaç da artmaktadır.
Ultralytics tarafından desteklenen yıllık hibrit etkinlik olan YOLO Vision 2024 (YV24)'te, yapay zeka uzmanları ve teknoloji meraklıları, bilgisayarlı görü alanındaki en son yenilikleri keşfetmek için bir araya geldi. Etkinlik, yapay zeka uygulama geliştirme süreçlerini hızlandırmanın yolları gibi çeşitli konularda tartışmalara yol açtı.
Etkinliğin önemli bir özelliği, model eğitimi, optimizasyonu ve dağıtımını kolaylaştıran açık kaynaklı bir yapay zeka platformu olan Hugging Face üzerine yapılan bir açılış konuşmasıydı. Hugging Face'te Makine Öğrenimi Mühendisi olan Pavel Lakubovskii, araçlarının görüntüdeki nesneleri algılama, görüntüleri farklı gruplara ayırma ve belirli örnekler üzerinde önceden eğitim almadan tahminlerde bulunma (sıfır atışlı öğrenme) gibi bilgisayarlı görü görevleri için iş akışlarını nasıl iyileştirdiğini paylaştı.
Hugging Face Hub, Ultralytics YOLO11 gibi çeşitli yapay zeka ve bilgisayarlı görü modellerini barındırır ve bunlara erişim sağlar. Bu makalede, Pavel'in konuşmasından çıkarılan temel bilgileri özetleyeceğiz ve geliştiricilerin Hugging Face'in açık kaynaklı araçlarını kullanarak yapay zeka modellerini nasıl hızlı bir şekilde oluşturup dağıtabileceğini göreceğiz.
Şekil 1. Pavel, YV24'te sahnede.
Hugging Face Hub, daha hızlı yapay zeka geliştirmeyi destekler
Pavel, konuşmasına Hugging Face'i çeşitli uygulamalar için önceden eğitilmiş modeller sunan açık kaynaklı bir yapay zeka platformu olarak tanıtarak başladı. Bu modeller, doğal dil işleme (NLP), bilgisayarlı görü ve çok modlu yapay zeka dahil olmak üzere yapay zekanın çeşitli dalları için tasarlanmıştır ve sistemlerin metin, resim ve ses gibi farklı veri türlerini işlemesini sağlar.
Pavel, Hugging Face Hub'ın artık 1 milyondan fazla modele ev sahipliği yaptığını ve geliştiricilerin kendi özel projelerine uygun modelleri kolayca bulabileceğini belirtti. Hugging Face, model eğitimi, ince ayar ve dağıtım için araçlar sunarak yapay zeka geliştirmeyi basitleştirmeyi amaçlamaktadır. Geliştiriciler farklı modellerle deney yapabildiklerinde, yapay zekayı gerçek dünya uygulamalarına entegre etme süreci basitleşir.
Hugging Face başlangıçta NLP ile tanınsa da, o zamandan beri bilgisayarla görü ve çok modlu yapay zekaya genişleyerek geliştiricilerin daha geniş bir yapay zeka görevleri yelpazesinin üstesinden gelmesini sağladı. Ayrıca, geliştiricilerin işbirliği yapabileceği, içgörülerini paylaşabileceği ve forumlar, Discord ve GitHub aracılığıyla destek alabileceği güçlü bir topluluğa sahiptir.
Bilgisayarlı görü uygulamaları için Hugging Face modellerini keşfetme
Pavel daha ayrıntılı olarak, Hugging Face'in araçlarının bilgisayar görüşü uygulamaları oluşturmayı nasıl kolaylaştırdığını açıkladı. Geliştiriciler bunları görüntü sınıflandırması, nesne tespiti ve görme-dil uygulamaları gibi görevler için kullanabilir.
Ayrıca, bu bilgisayarlı görü görevlerinin çoğunun, sıfırdan eğitime olan ihtiyacı azaltarak zamandan tasarruf sağlayan Hugging Face Hub'da bulunan önceden eğitilmiş modellerle ele alınabileceğine dikkat çekti. Aslında, Hugging Face, yemek sınıflandırması, evcil hayvan sınıflandırması ve duygu tespiti de dahil olmak üzere görüntü sınıflandırma görevleri için 13.000'den fazla önceden eğitilmiş model sunmaktadır.
Bu modellerin erişilebilirliğini vurgulayarak, "Muhtemelen projeniz için bir model eğitmenize bile gerek yok; Hub'da topluluktan biri tarafından zaten eğitilmiş bir model bulabilirsiniz" dedi.
Nesne tespiti için Hugging Face modelleri
Başka bir örnek veren Pavel, Hugging Face'in, görüntülerdeki nesneleri tanımlamak ve konumlandırmak için kullanılan temel bir bilgisayar görüşü işlevi olan nesne tespiti konusunda nasıl yardımcı olabileceğini ayrıntılarıyla anlattı. Kısıtlı etiketlenmiş veriyle bile, Hugging Face Hub'da bulunan önceden eğitilmiş modeller nesne tespitini daha verimli hale getirebilir.
Ayrıca, Hugging Face'te bulabileceğiniz bu görev için oluşturulmuş çeşitli modellere hızlı bir genel bakış sundu:
Gerçek zamanlı nesne algılama modelleri: Hızın çok önemli olduğu dinamik ortamlarda, Detection Transformer (DETR) gibi modeller gerçek zamanlı nesne algılama yetenekleri sunar. DETR, COCO veri kümesi üzerinde eğitilmiştir ve çok ölçekli özellikleri verimli bir şekilde işlemek üzere tasarlanmıştır, bu da onu zamana duyarlı uygulamalar için uygun hale getirir.
Görüntü-dil modelleri: Bu modeller, görüntü ve metin işlemeyi birleştirerek yapay zeka sistemlerinin görüntüleri açıklamalarla eşleştirmesini veya nesneleri eğitim verilerinin ötesinde tanımasını mümkün kılar. Örnekler arasında, metni görsellerle bağlayarak görüntü aramayı iyileştiren ve yapay zeka çözümlerinin bağlamlarını anlayarak yeni nesneleri tanımlamasını sağlayan CLIP ve SigLIP yer alır.
Sıfır atışlı nesne algılama modelleri: Görüntüler ve metin arasındaki ilişkiyi anlayarak daha önce görmedikleri nesneleri tanımlayabilirler. Örnekler arasında, etiketlenmiş eğitim verilerine ihtiyaç duymadan yeni nesneleri algılamak için sıfır atışlı öğrenmeyi kullanan OwlVit, GroundingDINO ve OmDet bulunur.
Hugging Face modellerini nasıl kullanabilirim?
Pavel daha sonra odağı Hugging Face modelleriyle uygulamalı çalışmaya kaydırarak, geliştiricilerin bunlardan yararlanabileceği üç yolu açıkladı: modelleri keşfetmek, hızlı bir şekilde test etmek ve daha da özelleştirmek.
Geliştiricilerin herhangi bir kod yazmadan doğrudan Hugging Face Hub'da modellere nasıl göz atabileceğini ve etkileşimli bir arayüz aracılığıyla modelleri anında test etmeyi nasıl kolaylaştırdığını gösterdi. Pavel, "Tek bir satır kod yazmadan veya modeli bilgisayarınıza indirmeden deneyebilirsiniz" diye ekledi. Bazı modeller büyük olduğundan, bunları Hub'da çalıştırmak depolama ve işleme sınırlamalarından kaçınmaya yardımcı olur.
Şekil 2. Hugging Face modelleri nasıl kullanılır?
Ayrıca, Hugging Face Inference API, geliştiricilerin basit API çağrılarıyla AI modellerini çalıştırmasına olanak tanır. Karmaşık bir kuruluma ihtiyaç duymadan hızlı test, kavram kanıtı projeleri ve hızlı prototipleme için harikadır.
Daha gelişmiş kullanım durumları için, geliştiriciler hem PyTorch hem de TensorFlow'u desteklerken metin, görüntü ve ses görevleri için önceden eğitilmiş modeller sağlayan açık kaynaklı bir araç olan Hugging Face Transformers çerçevesini kullanabilirler. Pavel, geliştiricilerin yalnızca iki satır kodla Hugging Face Hub'dan bir model alıp, Vision AI uygulamaları için görüntü verilerini analiz etmek üzere bir görüntü işlemcisi gibi bir ön işleme aracına bağlayabileceklerini açıkladı.
Hugging Face ile yapay zeka iş akışlarını optimize etme
Ardından Pavel, Hugging Face'in yapay zeka iş akışlarını nasıl kolaylaştırabileceğini açıkladı. Ele aldığı önemli bir konu, derin öğrenme modellerinin temel bir özelliği olan ve girdi verilerinin en alakalı kısımlarına odaklanmasına yardımcı olan Transformer'lardaki dikkat mekanizmasının optimize edilmesiydi. Bu, dil işleme ve bilgisayar görüşünü içeren görevlerin doğruluğunu artırır. Ancak, kaynak yoğun olabilir.
Dikkat mekanizmasını optimize etmek, hızı artırırken bellek kullanımını önemli ölçüde azaltabilir. Pavel, "Örneğin, daha verimli bir dikkat uygulamasına geçerek, 1,8 kata kadar daha hızlı performans görebilirsiniz," diye belirtti.
Hugging Face, Transformers çatısı içinde daha verimli dikkat uygulamaları için yerleşik destek sağlar. Geliştiriciler, bir modeli yüklerken alternatif bir dikkat uygulaması belirterek bu optimizasyonları kolayca etkinleştirebilir.
Optimum ve Torch Compile
Ayrıca, performansı çok fazla etkilemeden kullandıkları sayıların hassasiyetini azaltarak yapay zeka modellerini küçülten bir teknik olan nicelemeden bahsetti. Bu, modellerin daha az bellek kullanmasına ve daha hızlı çalışmasına yardımcı olarak akıllı telefonlar ve gömülü sistemler gibi sınırlı işlem gücüne sahip cihazlar için daha uygun hale getirir.
Verimliliği daha da artırmak için Pavel, modelleri optimize etmek ve dağıtmak için tasarlanmış bir araç seti olan Hugging Face Optimum kütüphanesini tanıttı. Geliştiriciler, yalnızca birkaç satır kodla niceleme teknikleri uygulayabilir ve modelleri ONNX (Açık Nöral Ağ Değişimi) gibi verimli formatlara dönüştürerek, bulut sunucuları ve uç cihazlar dahil olmak üzere farklı donanım türlerinde sorunsuz bir şekilde çalışmalarını sağlayabilir.
Şekil 3. Pavel, Optimum kütüphanesi ve özelliklerinden bahsetti.
Son olarak, Pavel, yapay zeka modellerinin verileri nasıl işlediğini optimize eden, böylece daha hızlı ve daha verimli çalışmalarını sağlayan bir PyTorch özelliği olan Torch Compile'ın faydalarından bahsetti. Hugging Face, Torch Compile'ı Transformers ve Optimum kütüphanelerine entegre ederek, geliştiricilerin minimum kod değişikliğiyle bu performans iyileştirmelerinden yararlanmasını sağlıyor.
Torch Compile, modelin hesaplama yapısını optimize ederek çıkarım sürelerini hızlandırabilir ve doğruluktan veya kaliteden ödün vermeden kare hızlarını saniyede 29'dan 150'ye çıkarabilir.
Hugging Face araçlarıyla modelleri dağıtmak
Devam edersek, Pavel doğru modeli seçtikten ve geliştirme için en iyi yaklaşımı seçtikten sonra, geliştiricilerin Hugging Face araçlarını kullanarak Vision AI modellerini nasıl genişletebileceğine ve dağıtabileceğine kısaca değindi.
Örneğin, geliştiriciler Gradio ve Streamlit kullanarak etkileşimli yapay zeka uygulamaları dağıtabilirler. Gradio, geliştiricilerin makine öğrenimi modelleri için web tabanlı arayüzler oluşturmasına olanak tanırken, Streamlit basit Python komut dosyalarıyla etkileşimli veri uygulamaları oluşturmaya yardımcı olur.
Pavel ayrıca, Hugging Face'in sağladığı kılavuzlara, eğitim not defterlerine ve örnek komut dosyalarına atıfta bulunarak, "Her şeyi sıfırdan yazmaya başlamanıza gerek yok," diye belirtti. Bu kaynaklar, geliştiricilerin her şeyi sıfırdan inşa etmek zorunda kalmadan hızlı bir şekilde başlamalarına yardımcı olur.
Pavel, açılış konuşmasını tamamlarken, Hugging Face Hub'ı kullanmanın avantajlarını özetledi. Model yönetimini ve işbirliğini nasıl basitleştirdiğini vurguladı. Ayrıca, hem yeni başlayanların hem de uzmanların yapay zeka modellerini anlamalarına ve uygulamalarına yardımcı olabilecek kılavuzların, not defterlerinin ve eğitimlerin mevcudiyetine dikkat çekti.
"Hub'da zaten birçok harika alan var. Benzer olanları bulabilir, paylaşılan kodu klonlayabilir, birkaç satırı değiştirebilir, modeli kendinizinkiyle değiştirebilir ve geri gönderebilirsiniz," diyerek geliştiricileri platformun esnekliğinden yararlanmaya teşvik etti.
Önemli çıkarımlar
Pavel, YV24'teki konuşması sırasında, Hugging Face'in yapay zeka modeli eğitimi, optimizasyonu ve dağıtımını destekleyen araçları nasıl sağladığını paylaştı. Örneğin, Transformers, Optimum ve Torch Compile gibi yenilikler, geliştiricilerin model performansını artırmasına yardımcı olabilir.
Yapay zeka modelleri daha verimli hale geldikçe, niceleme ve uç dağıtımındaki gelişmeler, bunların kaynakları kısıtlı cihazlarda çalıştırılmasını kolaylaştırmaktadır. Bu iyileştirmeler, Hugging Face gibi araçlar ve Ultralytics YOLO11 gibi gelişmiş bilgisayarlı görü modelleriyle birleştiğinde, ölçeklenebilir, yüksek performanslı Görüntü İşleme Yapay Zeka uygulamaları oluşturmanın anahtarıdır.