Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Apple Silicon yongaları üzerinde çalışan iOS için en iyi nesne algılama modelleri

En iyi nesne algılama modelleriyle daha akıllı iOS geliştirin. iPhone ve iPad gibi iOS hangi modellerin hızlı, doğru ve gerçek zamanlı performans sunduğunu öğrenin.

Ultralytics ile bilgisayar görme projelerinizi ölçeklendirin

Başlamak

Android ve iPhone'lar artık günlük yaşamın vazgeçilmez bir parçası haline geldi. İnsanlar gün boyunca bu cihazları alışveriş yapmak, yol bulmak, fotoğraf çekmek, ürünleri taramak ve uygulamalarla etkileşim kurmak için kullanıyor. 

Yapay zekanın hızla gelişmesiyle birlikte, günümüzde birçok akıllı telefon, cihazın kamerasıyla çekilen görüntü ve videoları anlayabilen özelliklere sahiptir. Bu özelliklerin verimli bir şekilde çalışabilmesi, büyük ölçüde altta yatan donanıma bağlıdır.

Örneğin, Apple ekosisteminde iPhone, iPad ve Mac gibi cihazlar, A serisi ve M serisi dahil olmak üzere Apple Silicon yongalarıyla çalışmaktadır. Bu sistem-içinde-çip (SoC) tasarımları, merkezi işlem birimlerini (CPU), grafik işlem birimlerini (GPU) ve özel makine öğrenimi hızlandırıcılarını bir araya getirerek, yapay zeka iş yükleri için cihaz üzerinde çıkarım yapılmasını mümkün kılar.

Özellikle görüntü analizi yetenekleri, makinelerin nesne algılama gibi görevler aracılığıyla görüntü ve videolardan gelen görsel bilgileri yorumlayıp anlamasını sağlayan bir yapay zeka alanı olan bilgisayar görme sayesinde mümkün olmaktadır. 

Özellikle, nesne algılama modelleri görüntüleri analiz eder ve nesnelerin etrafına sınırlayıcı kutular çizerek bunları tanımlar. Bu modeller, Apple Silicon yongaları gibi mobil donanımlarda verimli bir şekilde çalışacak şekilde optimize edilebilir; böylece iOS doğrudan cihaz üzerinde gerçek zamanlı görsel analiz yapılabilir.

Şekil 1. Nesnelerin sınır kutuları ile işaretlendiği bir nesne algılama örneği. (Kaynak)

Bu yazıda, hızlı ve gerçek zamanlı iOS geliştirmek için en iyi nesne algılama modellerinden bazılarını inceleyeceğiz. Hadi başlayalım!

iOS larında nesne algılayıcıları nasıl çalışır?

Nesne algılama, uygulamaların bir görüntüdeki nesneleri tanıyıp konumlarını belirlemesine yardımcı olur. Bir uygulama bir girdi görüntüsünü işlediğinde, nesne algılama modeli sahneyi analiz edebilir ve nesnelerin etrafına sınırlayıcı kutular yerleştirip etiketler atayarak farklı nesneleri tanımlayabilir.

Çoğu nesne algılama sistemi, eğitim verilerindeki kalıpları tanıyabilen sinir ağlarına dayanır. Görüntü işlerinde bu modeller, büyük eğitim veri kümelerinden elde edilen piksel düzeyindeki bilgileri analiz ederek görsel temsilleri öğrenir.

Eşlemeli sinir ağları (CNN'ler), nesne algılama backbone sıklıkla kullanılır. CNN'ler, kenarlar, şekiller ve dokular gibi hiyerarşik görsel özellikleri öğrenerek modelin bir sahnedeki nesneleri tanımasına yardımcı oldukları için görüntü tahminlerinde son derece etkilidir.

Araştırmacılar ayrıca bilgisayar görme görevleri için transformatör tabanlı mimarileri inceliyorlar. Bu modeller, bir görüntünün farklı bölgeleri arasındaki ilişkileri analiz ediyor ve sahne genelinde daha geniş kapsamlı bağlamsal bilgileri yakalıyor. 

Model mimarisinin türü bir yana, iOS nesne algılama için verimlilik hayati öneme sahip bir husustur. Bu modeller doğrudan mobil cihazlarda çalıştığı için, sınırlı hesaplama kaynaklarını kullanarak görüntüleri hızlı bir şekilde işlemek zorundadır. 

Verimli modeller, özellikle sürekli kamera girişlerini analiz ederken, mobil uygulamalarda düşük gecikme süresini korur ve gerçek zamanlı nesne algılamayı destekler.

Bir nesne algılama modelini iOS için uygun kılan nedir?

iOS için en iyi nesne algılama modellerinden bazılarına geçmeden önce, bir adım geriye gidip bir modeli mobil uygulamalar için mükemmel kılan unsurları anlayalım.

Bir iOS için ideal nesne algılama modeli, performans, verimlilik ve güvenilirlik arasında bir denge kurar. İşte iOS güçlü bir modeli belirleyen bazı temel faktörler:

  • Düşük gecikme süresi: Model, özellikle sürekli kamera girdisine dayanan uygulamalarda gerçek zamanlı nesne algılamayı desteklemek için görüntüleri hızlı bir şekilde işlemelidir.
  • Etkili model boyutu: Kompakt modeller mobil cihazlarda daha verimli çalışır ve genellikle daha az bellek ve hesaplama kaynağı gerektirir.
  • Algılama doğruluğu: Doğru algılama, nesnelerin doğru şekilde sınıflandırılmasını sağlar ve sınır kutuları farklı sahneler, nesne ölçekleri ve aydınlatma koşullarında da hassaslığını korur.
  • Çıkarım kararlılığı: Gerçek zamanlı uygulamalar için kareler arasında tutarlı bir çıkarım süresi önemlidir. İşlem süresindeki büyük dalgalanmalar, kare kayıplarına veya dengesiz kamera deneyimine neden olabilir.
  • Bellek kullanımı: Çıkarım sırasında gereken RAM miktarı , bir modelin iOS diğer uygulama işlemleri ile birlikte ne kadar sorunsuz çalıştığını etkiler.

iOS için en iyi nesne algılama modellerine bir bakış 

Şimdi de iOS için en yaygın olarak kullanılan nesne algılama modellerinden bazılarına bir göz atalım.

1. Ultralytics YOLO

Ultralytics YOLO , gerçek zamanlı bilgisayar görme uygulamaları için tasarlanmış, yaygın olarak Ultralytics bir nesne algılama modeli ailesidir. Yıllar içinde Ultralytics , Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11ve en son teknoloji ürünü model olan Ultralytics

Her yeni sürüm, algılama doğruluğu, model verimliliği ve çalışma performansı açısından iyileştirmeler getirmiştir. Bu güncellemeler, Ultralytics YOLO akıllı telefonlar gibi uç cihazlar için giderek daha uygun hale getirmiştir.

Şekil 2. YOLO26, gerçek dünya sahnelerindeki detect nesneyi detect için kullanılabilir. (Kaynak)

iOS için Ultralytics YOLO kullanmanın en önemli avantajlarından biri, Ultralytics Python aracılığıyla sağlanan CoreML . Bu açık kaynaklı kütüphane, geliştiricilerin basit bir iş akışıyla Ultralytics YOLO eğitmelerine, test etmelerine ve dışa aktarmalarına yardımcı olur.

Bu paket, eğitilmiş modellerin iOS dağıtım amacıyla kullanılan Apple’ın makine öğrenimi formatı CoreML aktarılmasını desteklemektedir. Aktarımın ardından CoreML bir uygulamaya entegre edilebilir ve CPU, GPU ve Apple Neural Engine gibi donanımlar kullanılarak doğrudan cihaz üzerinde çalıştırılabilir. 

Şekil 3. CoreML Apple’ın uygulamalar içinde yapay zeka modellerini entegre etmek ve çalıştırmak için CoreML bir çerçeve. (Kaynak)

Bu sayede geliştiriciler, model çıkarımını cihaz üzerinde tutarken gerçek zamanlı nesne algılamayı iOS kolayca entegre edebiliyor.

Apple Silicon üzerinde Ultralytics YOLO için dağıtım seçenekleri

Modellerin ötesinde, Ultralytics , YOLO Apple Silicon yongalarına daha kolay bir şekilde uygulanmasını sağlayan çeşitli seçenekler sunar.

Örneğin, Ultralytics veri kümesi yönetimi, model eğitimi, doğrulama ve devreye almayı tek bir ortamda bir araya getiren Ultralytics piyasaya sürdü. Bu bütünleştirilmiş iş akışı, birden fazla araca duyulan ihtiyacı azaltır ve deneysel aşamadan gerçek dünya uygulamalarına uzanan süreci kolaylaştırır.

Platformun bir parçası olarak, eğitilmiş modeller Apple cihazları CoreML dahil olmak üzere çeşitli formatlara aktarılabilir. Bu sayede, cihaz üzerinde çıkarım yapmak üzere bir Ultralytics YOLO sadece birkaç tıklamayla dışa aktarmak mümkün hale gelir. 

İhracat özelliklerinin yanı sıra, Ultralytics iOS için açık kaynaklı bir Swift ( iOS geliştirmek için kullanılan Apple’ın programlama dili) uygulaması Ultralytics . Bu, CoreML nasıl entegre edilebileceğini, kamera girdisi üzerinde nasıl çalıştırılabileceğini ve gerçek zamanlı nesne algılama için nasıl kullanılabileceğini gösteren, Swift ile yazılmış kullanıma hazır bir YOLO iOS içermektedir.

Ultralytics YOLO diğer avantajları

Ultralytics YOLO iOS geliştirmek için mükemmel bir seçenek haline getiren diğer bazı temel özellikler şunlardır:

  • Çeşitli görsel görevleri destekler: Nesne algılamanın yanı sıra, Ultralytics YOLO örnek segmentasyonu, duruş tahmini, nesne izleme, yönlü sınırlayıcı kutu (OBB) algılama ve görüntü sınıflandırma için de kullanılabilir.
  • Çeşitli model boyutları: Ultralytics , geliştiricilerin mobil cihazların performans sınırlamalarına uygun bir sürüm seçebilmelerini sağlayan farklı model seçenekleri (nano, küçük, orta, büyük ve ekstra büyük gibi)Ultralytics .
  • Önceden eğitilmiş modeller: Ultralytics YOLO , kullanıma hazır olarak kullanılabilen veya belirli görevler için ince ayar yapılabilen önceden eğitilmiş modeller olarak sunulur ve bu sayede geliştirme süresini kısaltır.

2. EfficientDet

EfficientDet, 2019 Google araştırmacıları tarafından ortaya konulan bir nesne algılama mimarisidir. Algılama doğruluğu ile hesaplama verimliliği arasında bir denge sağlamak üzere tasarlanmış olup, bu özelliği sayesinde kaynakların sınırlı olduğu ortamlar için uygundur.

EfficientDet'in temelinde yatan ana fikir, "bileşik ölçeklendirme" olarak bilinen bir ölçeklendirme yöntemidir. Bu yaklaşım, ağ derinliği veya görüntü çözünürlüğü gibi modelin yalnızca bir parçasını büyütmek yerine, mimarinin birden fazla bileşenini bir arada ölçeklendirir. 

Bu unsurları aynı anda ayarlayarak, model ister yüksek doğruluk için yapılandırılmış olsun ister hafif uygulamalar için optimize edilmiş olsun, istikrarlı bir performans sergiler.

Bu mimari, EfficientDet-D0'dan EfficientDet-D7'ye kadar çeşitli versiyonlarda mevcuttur. Daha küçük modeller daha hızlı çıkarım ve daha az kaynak kullanımı için tasarlanırken, daha büyük versiyonlar daha yüksek algılama doğruluğu sağlamaya odaklanmaktadır.

3. MobileNet SSD

MobileNet SSD, mobil ve uç cihazlarda verimli bir şekilde çalışmak üzere tasarlanmış hafif bir nesne algılama modelidir. 2017 yılı civarında popülerlik kazanmıştır. 

Bu model, verimli özellik çıkarımı üzerine odaklanan MobileNet backbone, nesneleri tespit etmek için SSD (Single Shot Detector) yaklaşımıyla birleştirir. SSD yöntemi, tek bir ileri geçişte nesneleri tespit eder ve sınırlayıcı kutular oluşturur. 

Bu tasarım, modeli nispeten hızlı ve basit tutar; bu da hızlı algılama sonuçları gerektiren uygulamalar için yararlıdır. MobileNet SSD, genellikle daha küçük model boyutlarının ve daha yüksek çıkarım hızlarının önemli olduğu durumlarda kullanılır. 

MobileNet mimarisi, gereken hesaplama yükünü azaltarak, işleme gücü sınırlı cihazlarda modelin çalıştırılmasını kolaylaştırır. MobileNet SSD, bazı yeni nesil algılama mimarileriyle aynı doğruluk düzeyine ulaşamayabilir, ancak yine de birçok yaygın nesne algılama görevinde iyi bir performans sergiler. 

4. CenterNet

CenterNet, nesnelerin merkez noktalarını tahmin ederek onları tanımlayan bir nesne algılama modelidir. 2019 yılında tanıtılmıştır. 

Model, çok sayıda aday bölge oluşturmak yerine, bir nesnenin merkezini tespit eder ve ardından nesneyi çevreleyen sınırlayıcı kutunun boyutunu tahmin eder. Bu yaklaşım, algılama sürecini basitleştirir ve çıkarım aşamasında atılması gereken adım sayısını azaltır. 

Şekil 3. CenterNet’teki nesne algılama aşamalarına genel bakış (Kaynak)

CenterNet, gerçek zamanlı algılama görevlerinde kullanılabilir ve bazı çok aşamalı algılayıcılara kıyasla nispeten basit mimarisiyle tanınır. ResNet omurgalarına sahip CenterNet gibi varyantları, çeşitli bilgisayar görme uygulamalarında yaygın olarak kullanılmaktadır.

Verimli tasarımı sayesinde CenterNet, iOS çalışan uygulamalar da dahil olmak üzere hızlı nesne algılamaya ihtiyaç duyan sistemler için idealdir.

5. NanoDet

NanoDet, uç cihazlarda ve mobil cihazlarda gerçek zamanlı uygulamalar için tasarlanmış hafif bir nesne algılama modelidir. Model, model boyutunu ve hesaplama gereksinimlerini oldukça düşük tutarken verimli nesne algılama sağlamak amacıyla 2020 yılında piyasaya sunulmuştur.

Model, tek aşamalı bir algılama mimarisi kullanır; bu sayede, ağdan tek bir geçişte nesnelerin konumlarını ve kategorilerini tahmin edebilir. Bu tasarım, modelin hızlı çalışmasını sağlar ve donanım kaynakları sınırlı olan sistemler için uygun hale getirir.

NanoDet, çıkarım sırasında gereken parametre ve hesaplama sayısını azaltmak için kompakt bir backbone optimize edilmiş bir algılama başlığı kullanır. Bu tasarım seçimleri, hız ve verimliliği ön planda tutarken makul bir algılama doğruluğunun korunmasına yardımcı olur.

iOS için doğru nesne algılama modelini seçme

Bir iOS için nesne algılama modelinin seçimi, genellikle kullanım senaryosunun özel gereksinimlerine bağlıdır. Bu modeller iPhone ve iPad gibi cihazlarda doğrudan çalıştığı için, hangi seçeneğin en iyi sonucu vereceği konusunda çeşitli faktörler etkili olmaktadır.

İşte dikkate alınması gereken bazı önemli hususlar:

  • Enerji verimliliği: Daha az güç tüketen modeller pil ömrünü uzatmaya yardımcı olur; bu da sürekli kamera işleme gerçekleştiren mobil uygulamalar için önemlidir.
  • Model optimizasyonu desteği: Bazı modeller, model boyutunu küçültebilen ve iOS performansı artırabilen niceleme veya budama gibi optimizasyon tekniklerini destekler.
  • Donanım uyumluluğu: Seçtiğiniz model mimarisi, CPU, GPU ve Apple’ın Neural Engine’i dahil olmak üzere iOS verimli bir şekilde çalışmalıdır.
  • Ölçeklenebilirlik: Bazı mimariler, çeşitli model boyutları veya varyantları sunarak geliştiricilerin performans ve donanım gereksinimlerine en uygun sürümleri seçmelerine olanak tanır.

Önemli çıkarımlar

Nesne algılama modelleri, akıllı mobil uygulamalara gelişmiş bilgisayar görme yetenekleri kazandırır. Doğrudan iOS çalışan bu modeller, uygulamaların cihazın kamerasından gelen görüntü ve videoları gerçek zamanlı olarak analiz etmesini sağlar. Doğru modeli seçerek, geliştiriciler güvenilir gerçek zamanlı performans sunan, hızlı tepki veren ve görsel odaklı mobil uygulamalar geliştirebilirler.

Büyüyen topluluğumuza katılın ve uygulamalı AI kaynakları için GitHub depomuzu keşfedin. Bugün görsel AI ile geliştirme yapmak için lisans seçeneklerimizi inceleyin. Çözüm sayfalarımızı ziyaret ederek tarımda AI'nın çiftçiliği nasıl dönüştürdüğünü ve robotikte görsel AI'nın geleceği nasıl şekillendirdiğini öğrenin.

Hadi birlikte yapay zekanın geleceğini şekillendirelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın