Ultralytics YOLO11AIを搭載したドローンアプリケーションを構築し、リアルタイムの物体検出とドローンベースのコンピュータービジョンタスクを実現する方法をご紹介します。
店舗での買い物とオンラインショッピングは似ているように見えるかもしれないが、両者は異なる物流に依存している。店舗は棚の補充を必要とし、オンライン注文は玄関先までの配達に依存する。テクノロジーの進歩のおかげで、両者のショッピング体験は並行して形を変えつつある。
例えば、配達に大きな変化が起きている。AIを搭載したドローンは、商品が私たちの家に届く方法を変えようとしている。これらのスマートドローンは、今後10年間で約8億800万件の配達を処理し、空を日常商取引のための最新の配達ルートに変えると予想されている。
配送ドローンは、人工知能(AI)と、視覚データを分析するために使用されるAIのサブフィールドであるコンピュータビジョンを使用して、障害物を回避して操縦する。以下のようなコンピュータ・ビジョン・モデル Ultralytics YOLO11のようなコンピュータビジョンモデルは、ドローンがリアルタイムで物体を検出・追跡するのを助け、ドローンが環境をよりよく理解し、相互作用できるようにします。
MeituanやDJIのような企業は、すでに自社のドローンにコンピュータービジョンを組み込んでいる。実際、さまざまな産業でドローンが急速に採用されていることから、AIドローン市場は2031年までに2069億ドルにまで急拡大するとみられている。
この記事では、Ultralytics YOLO11 ようなコンピュータビジョンモデルが、ドローン配送のようなドローンベースのアプリケーションでどのように使用できるかを詳しく見ていきます。実世界のシナリオで使用される前に、これらの技術がどのように開発され、テストされるかを紹介する例を紹介します。
宅配ドローンの重要な部分は、航行中に家屋を検知する能力である。この機能を再現し、その仕組みを理解するために、空撮ドローンが捉えた映像から家屋を識別できるコンピューター・ビジョン・モデルをトレーニングする。YOLO11 カスタム・トレーニングし、ラベル付けされたサンプルを使って家を認識・検出できるように、事前にトレーニングされたYOLO11 モデルを微調整する。
そのためには、ドローンからの高品質な映像データが必要だ。興味深いことに、本物のドローンを使わなくても、リアルな空撮映像を生成することができる。その方法を見てみよう。
Google Earth Studioは、Google Earthの衛星画像や3D画像を使って静止画やアニメーションを作成できるウェブベースのアニメーションツールです。リアルな空撮映像の作成に利用できる。
最初のステップは、Google Earth Studioを開き、以下のようにプロジェクトを作成することです。
ログインにはGoogle アカウントが必要です。
サインインしたら、人工ドローン動画の撮影場所を選ぶことができる。ページ左上の検索バーを使って場所を検索できる。このチュートリアルでは、カナダを選択する。また、家屋を検出するモデルをトレーニングするため、ドローン映像は家屋の空撮映像でなければならない。
次に、人工的なドローンショットの動きをキャプチャするために、最初と最後のタイムフレームを設定します。ドローン撮影の開始位置を決めたら、下図のように青い菱形を使用して最初のフレームを設定します。
次に、最後のフレームを選択して、ドローンの目的地を決定することができる。これは、ドローン映像に動くエフェクトを作成するのに役立ちます。これを行うには、ドローンショットに動くエフェクトを作成するために、バー(下でハイライトされている)を特定の時間まで右にスライドさせる。もう一度、青いダイヤモンドを使って最後のポイントを設定する。
最後に、このプロジェクトを保存し、ページ右上の赤い「Render」ボタンをクリックしてレンダリングすることができる。これでドローン撮影の最終映像が出力され、人工的なドローン映像の作成に成功する。
人工的なドローンのビデオ映像ができたので、次のステップはその中の家屋にラベルや注釈を付けることだ。また、映像の個々のフレームを分離する必要がある。
これを始めるために、LabelImgをインストールしよう。LabelImgはオープンソースの画像ラベリングツールである。以下のコマンドを実行することで、pipパッケージインストーラーを使ってターミナルから直接インストールできる:"pip install labelImg"。
インストール後、ターミナルまたはコマンドプロンプトで「labelImg」コマンドを使用してツールを実行できます。すると、以下のようなページが表示されます。
一方、ビデオをフレームに分割するには、オンラインのビデオ画像変換ツールか、FFmpegというツールを使う。FFmpegは、オーディオ、ビデオ、字幕、関連メタデータなどのマルチメディアコンテンツを処理するためのライブラリやツールのコレクションである。
以下のターミナル・コマンドを使って、ドローン映像の各フレームを分離することができる:
ffmpeg -i input_video.mp4 -vf fps=1 frame_%04d.jpg
ドローン映像のフレームを分離したら、その中のオブジェクト(家)にラベルを付け始めることができる。LabelImgツールで画像フォルダに移動し、各画像のオブジェクトにラベルを付ける。ラベル付けした画像は必ず保存して確認すること。画像に注釈を付けたら、このデータを使ってYOLO11 トレーニングに移ります。
YOLO11トレーニングを始める前に、画像とラベルを整理します。train "と "valid "の2つのフォルダを作る。これらのフォルダに画像を分割します。それぞれのフォルダの中に、画像とそれに対応するラベルファイル(テキスト形式)のサブフォルダを以下のように分けて作成します。
次に、YOLO11 モデルのトレーニングを以下のように開始する:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt") # choose your model, e.g., YOLO11 nano
# Train the model with your data and settings
model.train(data="data.yaml", epochs=100, imgsz=640)
学習されたYOLO11 モデルは、推論と呼ばれるプロセスを通じて予測を行うことができる。推論とは、学習中に学習した内容に基づいて、新しい未知のデータを分析するためにモデルを使用することである。この場合、モデルを使って、画像や動画から家などの特定のオブジェクトを見つけ、その周りにバウンディング・ボックスを描くことでラベル付けすることができる。
予測を実行するには、以下のPython コードを使用して、入力ビデオに学習済みYOLO11 モデルを使用することができます。この例では、トレーニングに使用したのと同じ人工ドローンのビデオを使用しますが、お好みで他のビデオファイルを使用することもできます。
# Import library
from ultralytics import YOLO
# Load the YOLO model
model = YOLO("best.pt") # Choose your custom-trained model
# Predict the results from the model
results = model.predict(source="path/to/original/video.mp4", show=True, save=True)
このコードを実行すると、予測値とバウンディングボックスを含む出力ビデオファイルが保存されます。
ドローン宅配荷物の家屋検出は、コンピュータ・ビジョンとYOLO11 どのように応用できるかの一例に過ぎない。その他、コンピュータビジョン、YOLO11、ドローンの実際の使用例をいくつかご紹介します:
コンピュータ・ビジョンを搭載したAIドローンは、荷物の配達から緊急時や農業の支援まで、多くの産業を変えつつある。このガイドでは、人工ドローン映像の作成、映像内のオブジェクトのラベル付け、YOLO11トレーニング、そして家屋を検出するための使用方法について説明する。
ドローンの映像に物体検出を適用することで、ドローンはより賢くなり、リアルタイムで物体を自動的に認識し追跡できるようになる。技術が向上するにつれ、AIを活用したドローンは、配達の迅速化、セキュリティの向上、災害対応の支援など、さらに大きな役割を果たすことになるだろう。
私たちのコミュニティに参加し、GitHubリポジトリを探索し、ビジョンAIについてもっと学び、あなたのコンピュータビジョンプロジェクトを開始するための ライセンスオプションをチェックしてください。製造業におけるAIや 自動車産業におけるコンピュータビジョンのようなイノベーションに興味がありますか?ソリューションのページをご覧ください。