Ultralytics YOLO11のカスタムトレーニング時にAlbumentationsを使用してデータ拡張を行い、多様なトレーニングデータでモデルの性能を向上させる方法を学びます。

Ultralytics YOLO11のカスタムトレーニング時にAlbumentationsを使用してデータ拡張を行い、多様なトレーニングデータでモデルの性能を向上させる方法を学びます。
コンピュータビジョンソリューションを構築する際、Vision AIモデルのトレーニング用に多様な画像セットを収集することは、非常に重要なプロセスとなります。これには多くの時間と費用がかかることが多く、収集した画像がモデルの効果的な学習に必要なほど多様でない場合もあります。
例えば、Ultralytics YOLO11のようなコンピュータビジョンモデルは、さまざまなアプリケーションに関連する多様なコンピュータビジョンタスクのために、画像データセット上でカスタムトレーニングできます。多様なデータは、モデルの汎化性能を高め、幅広い現実世界のシナリオでオブジェクトやパターンを認識できるようにするために重要です。
多様なデータが不足している場合は、画像データ拡張技術が優れた解決策となります。回転、反転、明るさの調整などの手法は、データセットの多様性を高め、モデルがより広範な条件に対応できるようにするのに役立ちます。
そのため、Ultralyticsは画像データ拡張のための連携をサポートしています。多様な変換を提供する一般的なツールであるAlbumentationsを使用することで、多様な視覚データを作成できます。この連携により、トレーニング画像を自動的に拡張することでYOLO11のトレーニングプロセスが簡素化され、モデルの性能が向上します。
この記事では、Albumentations連携の使用方法、その利点、およびモデルトレーニングへの影響について説明します。
コンピュータビジョンモデルは、さまざまな環境でオブジェクトを認識するために、広範な高品質の画像セットから学習できます。現実世界のソースから大規模なデータセットを収集するには、時間とコストがかかり、効率が悪い場合があります。このタスクを効率化するために、画像データ拡張を使用して既存の画像の新しいバリエーションを作成し、より多くのデータを収集しなくても、モデルがさまざまなシナリオから学習できるようにすることができます。
具体的には、2018年に効率的な画像データ拡張のために導入されたオープンソースライブラリであるAlbumentationsを活用できます。回転や反転などの単純な幾何学的変更から、明るさ、コントラスト、ノイズの追加などのより複雑な調整まで、さまざまな操作をサポートしています。
Albumentationsはその高い性能で知られており、画像を迅速かつ効率的に処理できます。OpenCVやNumPyなどの最適化されたライブラリ上に構築されており、処理時間を最小限に抑えて大規模なデータセットを処理できるため、モデルトレーニング中の高速データ拡張に最適です。
Albumentationsのその他の主な機能は次のとおりです。
データセットに拡張を適用する方法はたくさんあり、OpenCVのようなツールを使用して独自の拡張を作成することもできます。では、Albumentationsのようなライブラリをサポートする連携を選ぶ理由は何でしょうか?
OpenCVのようなツールで手動で拡張を作成するには、多くの時間がかかり、ある程度の専門知識が必要です。また、最適な結果を得るために変換を微調整するのは難しい場合があります。Albumentations連携は、このプロセスを容易にします。多くのすぐに使用できる変換を提供し、データセットを準備する際の時間と労力を節約できます。
Albumentations連携を選択するもう1つの理由は、Ultralyticsのモデルトレーニングパイプラインとスムーズに連携することです。トレーニング中に拡張が自動的に適用されるため、YOLO11のカスタムトレーニングがはるかに簡単になります。プロセスが簡素化されるため、データ準備の処理ではなく、モデルの改善に集中できます。
興味深いことに、Albumentations連携を使用してYOLO11をトレーニングすることは、思っているよりも簡単です。適切なライブラリが設定されると、連携はトレーニング中に画像データ拡張を自動的に適用します。同じデータセットを使用して、モデルがさまざまな画像のバリエーションから学習するのに役立ちます。
次に、YOLO11をカスタムトレーニングする際に、Albumentations連携をインストールして使用する方法を説明します。
オーグメンテーションを適用する前に、Ultralytics PythonパッケージとAlbumentationsの両方をインストールする必要があります。この連携機能は、両方のライブラリがデフォルトでシームレスに連携するように構築されているため、複雑な設定について心配する必要はありません。
インストールプロセス全体は、以下の画像に示すように、Pythonライブラリをインストールするためのパッケージ管理ツールであるpipコマンドを1つ実行するだけで、わずか数分で完了します。
Albumentationsをインストールすると、Ultralyticsのモデルトレーニングモードでは、トレーニング中に自動的に画像オーグメンテーションが適用されます。Albumentationsがインストールされていない場合、これらのオーグメンテーションは適用されません。詳細については、Ultralyticsの公式ドキュメントを参照してください。
Albumentations連携の内部で何が起こっているかをより深く理解しましょう。
YOLO11のトレーニング中に適用されるオーグメンテーションの詳細を以下に示します。
特定のアプリケーション向けにYOLO11をカスタムトレーニングする場合、Albumentations連携は、さまざまな条件に適応することで、モデルのパフォーマンスを向上させるのに役立ちます。いくつかの実際のアプリケーションと、この連携が解決できる課題について説明します。
ヘルスケアにおけるVision AIは、医師が医療画像をより正確に分析し、診断を支援し、患者ケアを改善するのに役立っています。実際、医療機関の約5分の1がすでにAIソリューションを使用しています。
ただし、これらのコンピュータビジョンソリューションの作成には、独自の課題が伴います。医療スキャンは、病院間で大きく異なる可能性があり、さまざまな機器、設定、さらには技術者の経験などの要因に影響されます。明るさ、コントラスト、露出のばらつきは、Vision AIモデルの一貫性と精度に影響を与える可能性があり、異なる環境で確実に実行することを困難にします。
ここで、Albumentationsのようなツールの統合が不可欠になります。Albumentationsは、同じスキャンの複数のオーグメントされたバージョンを生成することにより、モデルがさまざまな画質から学習できるようにします。これにより、モデルはより堅牢になり、高品質と低品質の両方の画像で疾患を正確に検出できるようになります。
Vision AIのもう1つの興味深い応用は、セキュリティと監視です。リアルタイムの物体検出は、セキュリティチームが潜在的な脅威を迅速に特定するのに役立ちます。
このアプリケーションに関連する主な懸念事項は、セキュリティカメラが1日を通してさまざまな照明条件で映像をキャプチャし、これらの条件がモデルがそのような画像を理解する方法に劇的な影響を与える可能性があることです。低照度環境、グレア、または視界不良などの要因により、コンピュータビジョンモデルがオブジェクトを検出したり、潜在的な脅威を一貫して認識したりすることが困難になる可能性があります。
Albumentations連携は、さまざまな照明条件を模倣するために変換を適用することで役立ちます。これにより、モデルは明るい環境と暗い環境の両方でオブジェクトを検出することを学習し、より信頼性が高まり、困難な状況での応答時間が向上します。
スーパーマーケットの通路での液体のこぼれ、店内を走り回る犬、子供による商品陳列の転倒などは、小売環境におけるVision AIのエッジケースとなり得る日常的な出来事のほんの一例です。コンピュータービジョンは、買い物客の行動追跡、来店客数の監視、棚にある商品の識別を通じて、顧客体験を向上させるためにますます利用されています。しかし、これらの現実世界の状況は、AIシステムが理解し、正確に処理するには難しい場合があります。
すべてのシナリオをコンピュータービジョンのデータセットで表現できるわけではありませんが、Albumentationsの統合は、予期しない照明、異常な角度、障害物など、起こりうる多くの状況をカバーするためにデータを拡張することで役立ちます。これにより、コンピュータービジョンモデルはさまざまな条件に適応し、エッジケースを処理し、動的な小売環境で正確な予測を行う能力が向上します。
モデルトレーニングのために多様な現実世界のデータを収集することは複雑になる可能性がありますが、Albumentationsは、モデルがさまざまな条件に適応するのに役立つ画像のバリエーションを作成することで、それを容易にします。
UltralyticsがサポートするAlbumentationsの統合により、YOLOv8のカスタムトレーニング中にこれらの拡張を適用するプロセスが簡素化されます。これにより、データセットの品質が向上し、より正確で信頼性の高いVision AIモデルを生成することで、幅広い業界にメリットをもたらします。
コミュニティに参加してGitHubリポジトリを探索し、AIについてさらに学び、ライセンスオプションを確認してVision AIプロジェクトを開始してください。製造業におけるAIや自動運転におけるコンピュータービジョンなどのイノベーションにご興味がありますか?ソリューションページにアクセスして詳細をご覧ください。