Ultralytics YOLO11をCoreML経由でAppleデバイスへ

AppleがApple Intelligenceのような機能を導入していることから、デバイス上のAIが私たちの携帯電話の使い方の中核になりつつあることは明らかです。開発者にとって、この変化は、コンピュータビジョンのような機能を使用して、よりスマートで応答性の高い体験を提供するiOSアプリをユーザーが採用していることを意味します。

コンピュータビジョンは、コンピュータが画像や動画などの視覚情報を理解し、分析できるようにする人工知能（AI）の一種です。モバイルデバイスでは、リアルタイムでオブジェクトを検出し、分類し、スマートフォンのカメラを介してオブジェクトと対話するために使用できます。Ultralytics YOLO11のようなVision AIモデルは、アプリのニーズに応じて、特定のオブジェクトを認識するようにカスタムトレーニングできます。

ただし、YOLO11は、すぐにiOSで実行できるように設定されていません。YOLO11をiPhoneまたはその他のAppleデバイスに、特にオフラインで使用するために展開するには、Appleのエコシステム向けに最適化された形式に変換する必要があります。

これはまさにCoreMLが解決するために構築された問題です。CoreMLは、Appleの機械学習フレームワークであり、モデルをローカルで実行し、iOSおよびmacOSアプリケーションにシームレスに統合できるように構築されています。UltralyticsがサポートするCoreML統合により、iPhoneでのローカルデプロイメント用にモデルを簡単にエクスポートできます。

この記事では、YOLO11モデルをCoreML形式にエクスポートする方法について詳しく見ていきます。また、コンピュータビジョンモデルをiOSデバイス上で直接実行することの利点を示すリアルタイムのユースケースについても解説します。それでは、始めましょう！

CoreMLとは？

CoreMLは、Appleが開発した機械学習（ML）フレームワークであり、開発者がトレーニング済みのMLモデルを、iOS（iPhoneおよびiPad）、macOS（Mac）、watchOS（Apple Watch）、tvOS（Apple TV）を含むAppleのエコシステム全体のアプリに直接統合することを可能にします。インターネット接続を必要とせずに、モデルをデバイス上で直接実行できるようにすることで、Appleデバイス上での機械学習をアクセスしやすく効率的にするように設計されています。

CoreMLの中核となるのは、画像分類、オブジェクト検出、音声認識、自然言語処理など、幅広いAIタスクをサポートする統一されたモデル形式です。このフレームワークは、CPU（中央処理装置）、GPU（グラフィックス処理装置）、ANE（Apple Neural Engine）を使用してモデルを迅速かつ効率的に実行し、Appleのハードウェアを最大限に活用するように最適化されています。

CoreMLは、さまざまなモデルタイプをサポートし、TensorFlow、PyTorch、scikit-learn、XGBoost、LibSVMなどの一般的な機械学習ライブラリと互換性があります。これにより、開発者は高度なML機能を日常のアプリに簡単に導入でき、Appleデバイス全体でスムーズに実行できるようになります。

図1. CoreMLは、他の一般的なAIフレームワークのモデルをサポートしています。（出典）

‍

CoreMLの主な機能

CoreMLがAIをAppleアプリに統合するための信頼できるツールとなる主な機能を以下に示します。

モデルの最適化：CoreMLは、モデルサイズを削減し、ランタイム効率を向上させるために、量子化やプルーニングなどの圧縮技術をサポートしています。
オンデバイスのパーソナライズ: AppleのMLフレームワークは、オンデバイスのパーソナライズをサポートしており、ユーザーのインタラクションに基づいてローカルでモデルをトレーニングおよび更新できます。
非同期予測:このフレームワークを使用すると、アプリはバックグラウンドで予測を実行できるため、AIタスクの処理中にユーザーインターフェイスをスムーズかつ応答性の高い状態に保つことができます。
マルチタスク学習：CoreMLは、同じ画像内のオブジェクトの検出やテキストの認識など、複数のタスクを一度に実行できるモデルをサポートしています。

YOLO11をCoreML形式にエクスポートする方法

CoreMLフレームワークについて理解が深まったところで、UltralyticsがサポートするCoreML統合を使用して、YOLOv8モデルをCoreML形式にエクスポートする方法を順を追って説明します。

ステップ1：環境のセットアップ

Ultralyticsが提供する統合機能にアクセスするには、まずUltralytics Pythonパッケージをインストールしてください。これは、Ultralytics YOLOモデルのトレーニング、評価、予測、エクスポートなどのタスクを簡素化する、軽量で使いやすいライブラリです。

Ultralytics Pythonパッケージをインストールするには、コマンドターミナルで「pip install ultralytics」を実行します。Jupyter NotebookやGoogle Colabのような環境を使用している場合は、コマンドの前に感嘆符（！）を追加してください：「!pip install ultralytics」。

インストール中またはCoreMLへのエクスポート中に問題が発生した場合は、Ultralyticsの公式ドキュメントまたはよくある問題ガイドでヘルプをご確認ください。

ステップ2：YOLO11をCoreMLにエクスポート

パッケージが正常にインストールされると、YOLO11モデルをロードしてCoreML形式に変換する準備が整います。

どの学習済みYOLO11モデルを使用すればよいかわからない場合は、Ultralyticsがサポートしているモデルの範囲をご確認ください。各モデルは、速度、サイズ、精度のバランスが異なり、プロジェクトに最適なものを選択できます。独自のデータセットでトレーニングしたカスタムトレーニングされたYOLO11モデルを使用することもできます。

以下のコードスニペットでは、"yolo11n.pt"という名前の事前学習済みYOLO11モデルファイルが使用されています。エクスポート処理中に、これは"yolo11n.mlpackage"というCoreMLパッケージに変換されます。

"yolo11n"モデルはナノバージョンであり、速度と低いリソース使用量のために最適化されています。プロジェクトのニーズに応じて、smallの"s"、mediumの"m"、largeの"l"、またはextra-largeの"x"など、他のモデルサイズを選択することもできます。各バージョンは、パフォーマンスと精度の異なるバランスを提供します。

‍

from ultralytics import YOLO model = YOLO("yolo11n.pt") model.export(format="coreml")

‍

ステップ3：エクスポートされたCoreMLモデルを使用した推論の実行

CoreML形式にエクスポートした後、YOLO11をiOSアプリケーションに簡単に統合して、iPhone、iPad、Macなどのデバイスでオブジェクト検出などのリアルタイムコンピュータビジョンタスクを実行できます。

例えば、以下のコードスニペットは、エクスポートされたCoreMLモデルをロードして推論を実行する方法を示しています。推論とは、学習済みモデルを使用して新しいデータに対する予測を行うプロセスです。この例では、モデルはボールで遊ぶ家族の画像を分析します。

‍

coreml_model = YOLO("yolo11n.mlpackage") results = coreml_model("https://images.pexels.com/photos/4933841/pexels-photo-4933841.jpeg", save=True)

‍

コードを実行すると、出力画像は"runs/detect/predict"フォルダに保存されます。

図2. CoreML形式でエクスポートされたYOLO11モデルを使用して物体を検出する例。画像は著者による。

‍

エクスポートされたCoreMLモデルはどこで使用できますか？

YOLOv11をCoreMLにエクスポートすると、iPhone、iPad、Macで効率的に実行できる多様なコンピュータビジョンアプリケーションを構築できる柔軟性が得られます。次に、この統合が特に役立つ実際のシナリオをいくつか見てみましょう。

CoreMLモデルを活用した拡張現実（AR）およびゲームアプリ

拡張現実（AR）は、仮想要素をライブカメラビューに重ねて、デジタルコンテンツと現実世界を融合させます。モバイルゲームの重要な一部となり、よりインタラクティブで没入感のある体験を生み出しています。

YOLO11をCoreML形式でエクスポートすることで、iOS開発者は、電話のカメラを使用して、ベンチ、木、標識などの現実世界のオブジェクトを認識するARゲームを構築できます。次に、ゲームは、コイン、手がかり、クリーチャーなどの仮想アイテムをこれらのオブジェクトの上に重ねて、プレーヤーの周囲を強化できます。

舞台裏では、これは物体検出と物体追跡を使用して機能します。YOLO11はリアルタイムで物体を検出および識別し、追跡はカメラが動いてもそれらの物体を視野に入れ続け、仮想要素が現実世界と確実に整合するようにします。

プレイヤーは、携帯電話をかざして周囲を探索し、目に見えるものとインタラクトしてアイテムを収集したり、簡単なチャレンジを完了したりできます。これらすべては、インターネット接続を必要とせずにデバイス上で直接実行できるため、スムーズで魅力的な体験が可能です。

リアルタイムANPR用のCoreMLモデルと統合されたiOSアプリ

自動ナンバープレート認識（ANPR）は、車両のナンバープレートを検出して読み取るために使用されるコンピュータビジョンアプリケーションです。これは、セキュリティ、交通監視、およびアクセス制御システムで一般的に使用されています。CoreMLやYOLO11のようなモデルを使用すると、ANPRはiOSデバイス上で効率的に実行できるようになりました。

iPhoneにANPRアプリがあると、セキュリティ重視の環境で特に役立ちます。たとえば、制限区域に入る車両が許可されているかどうかをチームが迅速に判断するのに役立ちます。

このようなアプリは、CoreMLを介して統合されたYOLO11などのVision AIモデルを使用して、デバイスのカメラを使用してリアルタイムで車両を検出し、ナンバープレートを特定できます。プレートが検出されると、光学文字認識（OCR）技術がライセンス番号を読み取ることができます。次に、アプリはこの番号をローカルまたはクラウドベースのデータベースと照合して、アクセスを確認したり、不正な車両にフラグを立てたりできます。

図3. Vision AIは、ナンバープレート番号の検出と読み取りに使用できます。（ソース）。

‍

アクセシビリティに焦点を当てたアプリは、CoreMLモデルを活用できます

AIはアクセシビリティに大きな影響を与え、視覚障害を持つ人々の障壁を取り除くのに役立っています。CoreMLやYOLO11などのコンピュータビジョンモデルのようなツールを使用することで、開発者はユーザーの周囲の世界をリアルタイムで説明するiOSアプリを構築し、日常のタスクをより簡単かつ独立して行うことができます。

例えば、視覚障碍のある人は、iPhoneのカメラを周囲に向けることができます。アプリは物体検出を使用して、車両、人、道路標識などの主要な要素を認識し、見ているものをナレーションします。これは、交通量の多い道路をナビゲートしたり、緊急事態を理解したりするような状況で使用できます。

‍

主なポイント

YOLOv11をCoreML形式にエクスポートすると、iOSデバイスでのオフラインオブジェクト検出など、リアルタイムアプリケーションの新たな機会が生まれます。農業やセキュリティからアクセシビリティまで、この組み合わせにより、開発者はデバイス上で完全に実行されるスマートで効率的、かつプライバシーを重視したアプリを構築できます。

ほんの数ステップで、YOLO11モデルを変換し、信頼性の高いコンピュータビジョン機能をiPhoneに追加できます。何よりも、インターネット接続を必要とせずに動作します。全体として、CoreMLの統合により、高度なAIのパワーが日常のモバイルアプリにもたらされ、より高速で応答性が高く、どこでも実行できるようになります。

AIについてもっと知りたいですか？GitHubリポジトリを探索し、コミュニティとつながり、ライセンスオプションを確認して、コンピュータビジョンプロジェクトを始めましょう。ソリューションページで、小売におけるAIや物流におけるコンピュータビジョンなどのイノベーションがどのように未来を形作っているかをご覧ください。

Ultralytics YOLO11をCoreML経由でAppleデバイスへ

CoreMLとは？

CoreMLの主な機能