Ultralytics YOLO アルブメンテーションによるデータ補強

コンピュータビジョンソリューションを構築する際、Vision AIモデルのトレーニング用に多様な画像セットを収集することは、非常に重要なプロセスとなります。これには多くの時間と費用がかかることが多く、収集した画像がモデルの効果的な学習に必要なほど多様でない場合もあります。

例えば、次のようなコンピュータビジョンモデルがある。 Ultralytics YOLO11のようなコンピュータビジョンモデルは、さまざまなアプリケーションに関連するさまざまなコンピュータビジョンタスクの画像データセットでカスタムトレーニングすることができます。多様なデータは、モデルの汎化を助け、実世界の幅広いシナリオで物体やパターンを認識できるようにするため、重要な鍵となります。

多様なデータが不足している場合は、画像データ拡張技術が優れた解決策となります。回転、反転、明るさの調整などの手法は、データセットの多様性を高め、モデルがより広範な条件に対応できるようにするのに役立ちます。

そのため、Ultralytics 画像データ拡張のための統合をサポートしています。Albumentationsという、変換のコレクションを提供する人気のツールを使えば、多様なビジュアルデータを作成することができます。この統合は、トレーニング画像を自動的に補強することでYOLO11 トレーニングプロセスを簡素化し、モデル性能の向上につながります。

この記事では、Albumentations連携の使用方法、その利点、およびモデルトレーニングへの影響について説明します。

Albumentationsとは？

コンピュータビジョンモデルは、さまざまな環境でオブジェクトを認識するために、広範な高品質の画像セットから学習できます。現実世界のソースから大規模なデータセットを収集するには、時間とコストがかかり、効率が悪い場合があります。このタスクを効率化するために、画像データ拡張を使用して既存の画像の新しいバリエーションを作成し、より多くのデータを収集しなくても、モデルがさまざまなシナリオから学習できるようにすることができます。

具体的には、2018年に効率的な画像データ拡張のために導入されたオープンソースライブラリであるAlbumentationsを活用できます。回転や反転などの単純な幾何学的変更から、明るさ、コントラスト、ノイズの追加などのより複雑な調整まで、さまざまな操作をサポートしています。

__wf_reserved_inherit — 図1. さまざまな種類の画像データ拡張の例。

‍

Albumentationsの主な機能

Albumentationsは、高速かつ効率的に画像を処理できる高性能で知られています。最適化された OpenCVやNumPyような最適化されたライブラリで構築されているため、最小限の処理時間で大規模なデータセットを処理でき、モデル学習中の高速なデータ増強に最適です。

Albumentationsのその他の主な機能は次のとおりです。

幅広い変身： Albumentationsは70種類以上の補強を提供します。
‍ 照明、角度、背景が変わっても物体をdetect できるように、モデルが学習するのに役立ちます。
速度のために最適化：SIMD（Single Instruction, Multiple Data）のような高度な最適化技術を使用しており、複数のデータポイントを一度に処理して画像拡張を高速化し、大規模なデータセットを効率的に処理します。
‍
3つのレベルの拡張：3つの方法でデータを強化します。たとえば、ピクセルレベルの拡張は、オブジェクトを変更せずに明るさと色を調整します。一方、空間レベルの拡張は、主要な詳細を保持しながらオブジェクトの位置を変更し、混合レベルの拡張は異なる画像のパーツをブレンドして新しいサンプルを作成します。

Albumentations連携を使用する理由

データセットにオーギュメンテーションを適用する方法はたくさんあるし、OpenCVようなツールを使って自分で作ることもできる。では、なぜAlbumentationsのようなライブラリをサポートするインテグレーションを選ぶのでしょうか？

OpenCV ようなツールを使って手動でオーグメントを作成するには、多くの時間がかかり、ある程度の専門知識が必要です。また、最良の結果を得るために変換を微調整するのも厄介です。Albumentationsの統合は、このプロセスを簡単にします。データセットを準備する際の時間と労力を節約できる、すぐに使える変換を多数提供しています。

Albumentationsインテグレーションを選ぶもう一つの理由は、Ultralytics モデルトレーニングパイプラインとスムーズに連動することです。トレーニング中に補強が自動的に適用されるため、YOLO11カスタムトレーニングがより簡単になります。プロセスが簡素化されるため、データ準備の処理よりもモデルの改善に集中することができます。

Albumentations連携の開始

興味深いことに、YOLO11 トレーニングにAlbumentations統合を使用することは、見た目よりも簡単である。適切なライブラリーがセットアップされると、統合はトレーニング中に自動的に画像データの補強を適用する。これは、同じデータセットを使用して、異なる画像バリエーションからモデルを学習するのに役立ちます。

次に、YOLO11カスタムトレーニングする際に、Albumentationsインテグレーションをインストールして使う方法を説明しよう。

Ultralytics Python パッケージとAlbumentationsのインストール

補強を適用する前に、Ultralytics Python パッケージとAlbumentationsの両方をインストールする必要があります。統合は、デフォルトで両方のライブラリがシームレスに連携するように構築されているので、複雑な設定を心配する必要はありません。

下の画像に示すように、Python ライブラリをインストールするためのパッケージ管理ツールであるpipコマンドを1回実行するだけで、インストールプロセス全体が数分で完了する。

Albumentationsをインストールすると、Ultralytics モデルのトレーニングモードでは、トレーニング中に自動的に画像補強が適用されます。Albumentationsがインストールされていない場合、これらの補強は適用されません。詳細については、 Ultralytics 公式ドキュメントを参照してください。

Albumentationsの統合によるYOLO11 トレーニング

Albumentations連携の内部で何が起こっているかをより深く理解しましょう。

YOLO11 トレーニングで適用される補強について詳しく見てみよう：

ぼかし：この変換は画像にわずかなぼかしを加えます。ピントが合っていない場合でも、モデルが物体をdetect やすくなります。
‍
メディアンブラー：画像内のオブジェクトのエッジを保持しながら、ランダムなノイズを低減します。これにより、モデルは複雑な環境でも物体をdetect しやすくなる。
‍。
グレースケール: 画像を白黒に変換することで、このオーグメンテーションは、モデルが色ではなく形状とテクスチャに集中するのに役立ちます。
‍
CLAHE (コントラスト制限付き適応ヒストグラム均等化): このオーグメンテーションは、特に暗すぎる、または見えにくい領域 (低照度や霞んだ状態など) で画像のコントラストを高めます。これにより、これらの領域内のオブジェクトがより鮮明になり、モデルが識別しやすくなります。

‍

YOLO11 Albumentationsの統合の応用

特定のアプリケーションのためにYOLO11 カスタムトレーニングする場合、Albumentationsの統合は、様々な条件に適応することで、モデルのパフォーマンスを向上させるのに役立ちます。実際のアプリケーションと、この統合が解決できる課題について説明しましょう。

医療画像の改善

ヘルスケアにおけるVision AIは、医師が医療画像をより正確に分析し、診断を支援し、患者ケアを改善するのに役立っています。実際、医療機関の約5分の1がすでにAIソリューションを使用しています。

ただし、これらのコンピュータビジョンソリューションの作成には、独自の課題が伴います。医療スキャンは、病院間で大きく異なる可能性があり、さまざまな機器、設定、さらには技術者の経験などの要因に影響されます。明るさ、コントラスト、露出のばらつきは、Vision AIモデルの一貫性と精度に影響を与える可能性があり、異なる環境で確実に実行することを困難にします。

そこでAlbumentationsのようなツールの統合が不可欠となる。Albumentationsは、同じスキャンの複数の拡張バージョンを生成することにより、モデルが様々な画像品質から学習することを可能にします。これにより、モデルはよりロバストになり、高画質画像でも低画質画像でも病気を正確にdetect できるようになります。

‍

セキュリティと監視の強化

Vision AIのもう1つの興味深い応用は、セキュリティと監視です。リアルタイムの物体検出は、セキュリティチームが潜在的な脅威を迅速に特定するのに役立ちます。

このアプリケーションに関連する主な懸念は、防犯カメラが一日中さまざまな照明条件の下で映像を撮影することであり、これらの条件は、モデルがそのような画像を理解する方法に劇的に影響を与える可能性があることです。低照度環境、まぶしさ、視界の悪さなどの要因は、コンピュータビジョンモデルが物体をdetect したり、潜在的な脅威を一貫して認識したりすることを困難にします。

Albumentationsの統合は、異なる照明条件を模倣するために変換を適用することによって支援します。これにより、モデルは明るい環境と暗い環境の両方で物体をdetect することを学習し、信頼性を高め、厳しい条件下での応答時間を改善します。

小売のワークフローと顧客体験の再定義

スーパーマーケットの通路での液体のこぼれ、店内を走り回る犬、子供による商品陳列の転倒などは、小売環境におけるVision AIのエッジケースとなり得る日常的な出来事のほんの一例です。コンピュータービジョンは、買い物客の行動追跡、来店客数の監視、棚にある商品の識別を通じて、顧客体験を向上させるためにますます利用されています。しかし、これらの現実世界の状況は、AIシステムが理解し、正確に処理するには難しい場合があります。

すべてのシナリオをコンピュータービジョンのデータセットで表現できるわけではありませんが、Albumentationsの統合は、予期しない照明、異常な角度、障害物など、起こりうる多くの状況をカバーするためにデータを拡張することで役立ちます。これにより、コンピュータービジョンモデルはさまざまな条件に適応し、エッジケースを処理し、動的な小売環境で正確な予測を行う能力が向上します。

主なポイント

モデルトレーニングのために多様な現実世界のデータを収集することは複雑になる可能性がありますが、Albumentationsは、モデルがさまざまな条件に適応するのに役立つ画像のバリエーションを作成することで、それを容易にします。

Ultralytics サポートするAlbumentations統合は、YOLO11カスタムトレーニング中にこれらの補強を適用するプロセスを簡素化します。その結果、データセットの品質が向上し、より正確で信頼性の高いVision AIモデルを生成することで、幅広い業界に利益をもたらします。

コミュニティに参加してGitHubリポジトリを探索し、AIについてさらに学び、ライセンスオプションを確認してVision AIプロジェクトを開始してください。製造業におけるAIや自動運転におけるコンピュータービジョンなどのイノベーションにご興味がありますか？ソリューションページにアクセスして詳細をご覧ください。

Albumentationsによるデータ拡張でデータを多様化する