Yolo 深圳
深セン
今すぐ参加

Apple Siliconチップ搭載のiOS 向け、最高の物体検出モデル

最高の物体検出モデルを活用して、よりスマートなiOS を開発しましょう。iPhoneiOS 上で、高速かつ正確なリアルタイム処理を実現するモデルをご紹介します。

Ultralyticsでコンピュータビジョンプロジェクトをスケールアップ

始める

Android 、今や日常生活に欠かせないものとなっています。人々は一日中、買い物や道案内、写真撮影、商品のスキャン、アプリの利用などにこれらを活用しています。 

人工知能の急速な発展に伴い、現在では多くのスマートフォンに、端末のカメラで撮影した画像や動画を認識する機能が搭載されています。これらの機能を効率的に動作させるかどうかは、その基盤となるハードウェアに大きく依存しています。

例えば、Appleのエコシステムでは、iPhone、iPad、Macなどのデバイスが、AシリーズやMシリーズを含むApple Siliconチップを搭載しています。これらのシステムオンチップ(SoC)設計には、中央処理装置(CPU)、グラフィックス処理装置(GPU)、および専用の機械学習アクセラレータが統合されており、AIワークロードのデバイス上での推論処理を可能にしています。

特に、画像解析機能はコンピュータビジョンによって実現されています。コンピュータビジョンとは物体検出などのタスクを通じて、機械が画像や動画から得られる視覚情報を解釈・理解することを可能にするAIの一分野です。 

具体的には、物体検出モデルは画像を分析し、物体の周囲にバウンディングボックスを描画することで物体を識別します。これらのモデルは、Apple Siliconチップなどのモバイルハードウェア上で効率的に動作するように最適化できるため、iOS 上でデバイス内でのリアルタイムな視覚分析が可能になります。

図1. オブジェクト検出の例。オブジェクトはバウンディングボックスで囲まれている。(出典

この記事では、高速でリアルタイムiOS を開発するための、優れた物体検出モデルをいくつか紹介します。さっそく見ていきましょう!

iOS におけるオブジェクト検出機能の仕組み

物体検出は、アプリが画像内の物体を認識し、その位置を特定するのを支援します。アプリが入力画像を処理する際、物体検出モデルはシーンを分析し、物体の周囲にバウンディングボックスを描画してラベルを付与することで、さまざまな物体を識別します。

ほとんどの物体検出システムは、学習データ内のパターンを認識できるニューラルネットワークに依存しています。画像処理タスクにおいて、これらのモデルは、大規模な学習データセットから得られるピクセルレベルの情報を分析することで、視覚的表現を学習します。

畳み込みニューラルネットワーク(CNN)は、物体検出モデルの基盤としてよく用いられます。CNNは、エッジ、形状、テクスチャといった階層的な視覚的特徴を学習するため、画像の予測に非常に適しており、これによりモデルはシーン内の物体を認識しやすくなります。

研究者たちは、コンピュータビジョンタスク向けにトランスフォーマーベースのアーキテクチャの研究も進めている。これらのモデルは、画像内の異なる領域間の関係を分析し、シーン全体にわたるより広範な文脈情報を捉えることができる。 

モデルアーキテクチャの種類にかかわらず、iOS 物体検出においては、効率性が極めて重要な要素となります。これらのモデルはモバイルデバイス上で直接実行されるため、限られた計算リソースの中で画像を迅速に処理する必要があります。 

効率的なモデルは低遅延を維持し、特に連続的なカメラ入力を分析する場合に、モバイルアプリでのリアルタイム物体検出をサポートします。

iOSに適した物体検出モデルとはどのようなものか?

iOS優れた物体検出モデルについて詳しく見る前に、ひとまず一歩引いて、モバイルアプリにおいて優れたモデルとはどのようなものなのかを理解しておきましょう。

iOS 理想的な物体検出モデルとは、パフォーマンス、効率性、信頼性のバランスが取れているものです。iOS に適した優れたモデルを定義する主な要素は以下の通りです:

  • 低遅延:モデルは、リアルタイムの物体検出をサポートするために画像を迅速に処理できる必要があります。特に、カメラからの連続的な入力に依存するアプリケーションにおいては、これが重要です。
  • 効率的なモデルサイズ:コンパクトなモデルはモバイル端末での実行効率が高く、通常、必要なメモリや計算リソースも少なくて済みます。
  • 検出精度:正確な検出により、オブジェクトが正しく分類され、さまざまなシーン、オブジェクトのサイズ、照明条件においてもバウンディングボックスの精度が維持されます。
  • 推論の安定性: リアルタイムアプリケーションでは、フレーム間での推論時間が一定であることが 重要です。処理時間に大きな変動があると、フレームの欠落やカメラ映像の不安定な表示を引き起こす可能性があります。
  • メモリ使用量: 推論中に必要なRAMの量は 、iOS 上でモデルが他のアプリプロセスと並行してどれだけスムーズに動作するかに影響します。

iOS向けのおすすめ物体検出モデル 

次に、iOS で最も広く使われている物体検出モデルをいくつか見ていきましょう。

1.Ultralytics YOLO

Ultralytics YOLO 、リアルタイムのコンピュータビジョンアプリケーション向けに設計された、広く利用されている物体検出モデルのシリーズです。長年にわたり、Ultralytics 次のようなビジョンモデルをリリースUltralytics 。 Ultralytics YOLOv5Ultralytics YOLOv8, Ultralytics YOLO11、そして最新の最先端モデルUltralytics 。 

新しいバージョンがリリースされるたびに、検出精度、モデルの効率性、および実行パフォーマンスが向上しています。こうした更新により、Ultralytics YOLO 、スマートフォンなどのエッジデバイスでの利用にますます適したものとなっています。

図2. YOLO26を使用すると、実世界のシーン内でdetect 物体をdetect することができる。(出典

iOS Ultralytics YOLO を利用する主な利点の一つは、Ultralytics Python を通じて提供されるCoreML です。このオープンソースライブラリにより、開発者はシンプルなワークフローでUltralytics YOLO トレーニング、テスト、エクスポートを行うことができます。

このパッケージは、トレーニング済みのモデルCoreML( iOS モデル展開に使用されるAppleの機械学習フォーマット)にエクスポートする機能をサポートしています。エクスポート後、CoreML アプリに組み込み、CPU、GPU、Apple Neural Engineなどのハードウェアを利用して、デバイス上で直接実行することができます。 

図3.CoreML 、アプリ内でAIモデルを統合・実行するためのAppleのフレームワークCoreML 。(出典

これにより、開発者はモデル推論を端末上で実行したまま、iOS リアルタイムの物体検出機能を簡単に組み込むことができます。

Apple Silicon におけるUltralytics YOLO デプロイ方法

モデルそのものだけでなく、Ultralytics には、Apple Siliconチップ上でYOLO 容易に展開できるさまざまなオプションが用意されています。

例えば、Ultralytics 、Ultralytics を発表しました。これは、データセットの管理、モデルのトレーニング、検証、およびデプロイを単一の環境に統合したものです。この統合されたワークフローにより、複数のツールを必要とする手間が省かれ、実験から実運用へのプロセスが効率化されます。

このプラットフォームでは、学習済みのモデルをAppleCoreML を含む複数の形式でエクスポートできます。これにより、わずか数回のクリックでUltralytics YOLO エクスポートし、デバイス上で推論を行うことが可能になります。 

エクスポート機能に加え、iOS Ultralytics iOSオープンソースのSwift(iOS の開発に使用されるAppleのプログラミング言語)実装Ultralytics 。これには、Swiftで記述されたすぐに使えるYOLO iOS が含まれており、CoreML どのように統合し、カメラ入力に基づいて実行し、リアルタイムの物体検出に活用できるかを実演しています。

Ultralytics YOLO その他の利点

Ultralytics YOLO iOS の開発に最適な選択肢となる、その他の主な特徴は以下の通りです:

  • 幅広い視覚タスクに対応: Ultralytics YOLO 、物体検出に加え、インスタンスセグメンテーション、姿勢推定、物体追跡、方向付きバウンディングボックス(OBB)検出、画像分類にも利用できます。
  • 多彩なモデルサイズ: Ultralytics 、ナノ、スモール、ミディアム、ラージ、エクストララージなど、さまざまなモデルバリエーションUltralytics 、開発者はモバイルデバイスの性能上の制約に合わせて最適なバージョンを選択できます。
  • 事前学習済みモデル: Ultralytics YOLO 、そのまま使用できる事前学習済みモデルとして提供されており、特定のタスクに合わせて微調整することも可能で、開発期間の短縮につながります。

2. EfficientDet

EfficientDetは、Google 研究者らによって提案された物体検出アーキテクチャです。検出精度と計算効率のバランスを重視して設計されており、リソースが限られた環境での利用に適しています。

EfficientDetの背後にある重要な考え方は、「複合スケーリング」と呼ばれるスケーリング手法です。このアプローチでは、ネットワークの深さや画像の解像度など、モデルの一部だけを拡大するのではなく、アーキテクチャの複数の構成要素を同時にスケーリングします。 

これらの要素を同時に調整することで、モデルは、高精度を重視した構成であっても、軽量な展開向けに最適化された構成であっても、安定した性能を維持します。

このアーキテクチャには、EfficientDet-D0からEfficientDet-D7まで、いくつかのバリエーションが用意されています。小型モデルは、推論速度の向上とリソース使用量の削減を重視して設計されており、一方、大型モデルは検出精度の向上に重点を置いています。

3. MobileNet SSD

MobileNet SSDは、モバイル端末やエッジデバイス上で効率的に動作するように設計された軽量な物体検出モデルです。2017年頃に広く普及しました。 

このモデルは、効率的な特徴抽出に重点を置いたMobileNetバックボーンと、物体検出のためのSSD(Single Shot Detector)手法を組み合わせたものです。SSD手法は、1回のフォワードパスで物体を検出し、バウンディングボックスを生成します。 

この設計により、モデルの処理速度は比較的速く、構造もシンプルに保たれており、迅速な検出結果が求められる用途に有用です。MobileNet SSDは、モデルのサイズを小さくし、推論速度を向上させることが重要な場面でよく使用されます。 

MobileNetアーキテクチャは必要な計算量を削減するため、処理能力が限られたデバイスでもモデルを容易に実行できます。MobileNet SSDは、一部の新しい検出アーキテクチャほどの精度には達しないかもしれませんが、多くの一般的な物体検出タスクにおいて依然として良好な性能を発揮します。 

4. CenterNet

CenterNetは、物体の中心点を予測することで物体を識別する物体検出モデルです。2019年に発表されました。 

このモデルは、多数の候補領域を生成する代わりに、物体の中心を検出し、その周囲のバウンディングボックスのサイズを予測します。このアプローチにより、検出パイプラインが簡素化され、推論時の処理ステップ数が削減されます。 

図3. CenterNetにおける物体検出の各段階の概要(出典

CenterNetはリアルタイム検出タスクに利用でき、一部の多段階検出器に比べて比較的シンプルなアーキテクチャで知られています。ResNetをバックボーンとしたCenterNetなどのバリエーションは、さまざまなコンピュータビジョンアプリケーションで広く用いられています。

その効率的な設計により、CenterNetiOS 上で動作するアプリケーションを含め、高速な物体検出を必要とするシステムに適しています。

5. NanoDet

NanoDetは、エッジデバイスやモバイルデバイスでのリアルタイムアプリケーション向けに設計された軽量な物体検出モデルです。2020年に発表され、モデルサイズと計算リソースを極限まで抑えつつ、効率的な物体検出を実現することを目的としています。

このモデルは単一ステージの検出アーキテクチャを採用しており、ネットワークを1回通過するだけで、物体の位置とカテゴリを予測することができます。この設計により、モデルの処理速度が維持され、ハードウェアリソースが限られているシステムにも適しています。

NanoDetは、コンパクトなバックボーンと最適化された検出ヘッドを採用することで、推論時に必要なパラメータ数と計算量を削減しています。こうした設計上の選択により、速度と効率を優先しつつ、妥当な検出精度を維持することが可能となっています。

iOS に適した物体検出モデルの選び方

iOS 物体検出モデルを選ぶ際は、多くの場合、ユースケースごとの具体的な要件によって決まります。これらのモデルはiPhoneやiPadなどのデバイス上で直接実行されるため、どの選択肢が最適かについては、いくつかの要因が影響します。

以下に、重要な考慮事項をいくつか挙げます:

  • エネルギー効率: 消費電力の少ないモデルは バッテリーの持続時間を延ばすのに役立ち、これは継続的なカメラ処理を行うモバイルアプリにとって重要です。
  • モデルの最適化 対応:一部の モデルは、量子化やプルーニングなどの最適化手法に対応しており、これによりモデルサイズを縮小し、iOS でのパフォーマンスを向上させることができます。
  • ハードウェアの互換性:選択するモデルアーキテクチャは、CPU、GPU、およびAppleのNeural Engineを含むiOS 上で効率的に動作する必要があります。
  • スケーラビリティ:一部の アーキテクチャでは、複数のモデルサイズやバリエーションが用意されており、開発者はパフォーマンスやハードウェア要件に最適なバージョンを選択することができます。

主なポイント

物体検出モデルは、スマートモバイルアプリに高度なコンピュータビジョン機能をもたらします。iOS 上で直接実行されるこれらのモデルにより、アプリはデバイスのカメラから取得した画像や動画をリアルタイムで分析することが可能になります。適切なモデルを選択することで、開発者は信頼性の高いリアルタイム性能を発揮する、応答性の高いビジョン駆動型モバイルアプリを構築できます。

成長を続けるコミュニティに参加し、実践的なAIリソースをGitHubリポジトリで探求しましょう。ビジョンAIを活用した開発を始めるには、ライセンスオプションをご覧ください。農業分野におけるAIの変革や、ロボティクス分野のビジョンAIが未来を形作る様子については、ソリューションページでご確認ください。

一緒にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。