データを多様化するためのAlbumentations拡張の使用
多様なトレーニングデータを使用してモデルパフォーマンスを向上させるため、Ultralytics YOLO11をカスタムトレーニングする際にAlbumentationsを使用して拡張する方法を学びましょう。

コンピュータビジョンソリューションを構築する際、ビジョンAIモデルのトレーニングに向けて多様な画像セットを収集することは、プロセスにおいて極めて重要です。これには多くの時間とコストがかかることが多く、収集した画像がモデルの効果的な学習に十分な多様性を持っていないことも珍しくありません。
例えば、Ultralytics YOLO11のようなコンピュータビジョンモデルは、様々なアプリケーションに関連するコンピュータビジョンのタスクのために、画像データセットでカスタムトレーニングを行うことができます。多様なデータが鍵となるのは、モデルがより適切に汎化し、幅広い実世界のシナリオでオブジェクトやパターンを認識できるようになるためです。
データの多様性が不足している場合は、画像データのオーグメンテーション技術が優れた解決策となります。回転、反転、明るさ調整といった手法は、データセットのバリエーションを増やし、より幅広い条件に対応できるモデルの能力を向上させます。
そのため、Ultralyticsでは画像データオーグメンテーションの統合をサポートしています。変換のコレクションを提供する一般的なツールであるAlbumentationsを使用することで、多様なビジュアルデータを作成できます。この統合により、トレーニング画像を自動的にオーグメンテーションしてモデルのパフォーマンスを向上させ、YOLO11のトレーニングプロセスが簡素化されます。
この記事では、Albumentationsの統合方法とその利点、そしてモデルトレーニングへの影響について解説します。
Link to this sectionAlbumentationsとは何ですか?#
コンピュータビジョンモデルは、高品質な画像の幅広いセットから学習することで、様々な環境内のオブジェクトを認識できます。実世界のソースから大規模なデータセットを収集するのは、遅く、コストがかかり、非効率的です。このタスクを効率化するために、画像データオーグメンテーションを使用して既存の画像の新しいバリエーションを作成し、データをさらに収集することなく、モデルが様々なシナリオから学習できるようにします。
具体的には、2018年に効率的な画像データオーグメンテーションのために導入されたオープンソースライブラリであるAlbumentationsを活用できます。回転や反転といった単純な幾何学的変化から、明るさ、コントラスト、ノイズ追加といったより複雑な調整まで、多様な操作をサポートしています。

図1 画像データオーグメンテーションの様々なタイプの例。
Link to this sectionAlbumentationsの主な機能#
Albumentationsは高いパフォーマンスで知られており、画像を迅速かつ効率的に処理できます。OpenCVやNumPyのような最適化されたライブラリを基盤として構築されており、最小限の処理時間で大規模なデータセットを扱えるため、モデルトレーニング中の高速なデータオーグメンテーションに最適です。
Albumentationsのその他の主な機能は以下の通りです。
- 広範な変換: Albumentationsは70種類以上のオーグメンテーションを提供します。これらのバリエーションは、照明、角度、背景の変化にかかわらず、モデルがオブジェクトを検出できるように学習を支援します。
- スピードの最適化: 複数のデータポイントを一度に処理して画像オーグメンテーションを高速化し、大規模なデータセットを効率的に処理するSIMD(Single Instruction, Multiple Data)などの高度な最適化技術を使用しています。
- 3つのレベルのオーグメンテーション: 3つの方法でデータを拡張します。例えば、ピクセルレベルのオーグメンテーションは、オブジェクトを変更せずに明るさや色を調整します。一方、空間レベルのオーグメンテーションは、重要な詳細を維持しながらオブジェクトの位置を変更し、ミキシングレベルのオーグメンテーションは、異なる画像のパーツをブレンドして新しいサンプルを作成します。
Link to this sectionなぜAlbumentationsの統合を使用すべきなのですか?#
データセットにオーグメンテーションを適用する方法はたくさんあり、OpenCVのようなツールを使用して独自のものを作成することもできるため、なぜAlbumentationsのようなライブラリをサポートする統合を選ぶ必要があるのか疑問に思うかもしれません。
OpenCVのようなツールで手動でオーグメンテーションを作成すると、多くの時間がかかり、ある程度の専門知識が必要になります。また、最適な結果を得るために変換を微調整するのも難しい場合があります。Albumentationsの統合により、このプロセスが容易になります。データセットを準備する際に、時間と労力を節約できるすぐに使える変換が多数提供されています。
Albumentationsの統合を選ぶもう一つの理由は、Ultralyticsのモデルトレーニングパイプラインとスムーズに連携する点です。トレーニング中にオーグメンテーションが自動的に適用されるため、YOLO11のカスタムトレーニングが非常に簡単になります。プロセスが簡素化されるため、データ準備に追われることなく、モデルの改善により集中できるようになります。
Link to this sectionAlbumentationsの統合を使い始める#
興味深いことに、YOLO11のトレーニングにAlbumentationsの統合を使用するのは、想像以上に簡単です。適切なライブラリが設定されると、統合はトレーニング中に自動的に画像データオーグメンテーションを適用します。これにより、同じデータセットを使用して、異なる画像バリエーションからモデルが学習するのを支援します。
次に、YOLO11のカスタムトレーニング時にAlbumentationsの統合をインストールして使用する方法を確認しましょう。
Link to this sectionUltralytics PythonパッケージとAlbumentationsのインストール#
オーグメンテーションを適用する前に、Ultralytics PythonパッケージとAlbumentationsの両方をインストールする必要があります。この統合は、デフォルトで両方のライブラリがシームレスに連携するように構築されているため、複雑な設定について心配する必要はありません。
インストールプロセス全体は、Pythonライブラリをインストールするためのパッケージ管理ツールであるpipコマンドを1つ実行するだけで、わずか数分で完了します。以下の画像を参照してください。

図2. UltralyticsとAlbumentationsのインストール。
Albumentationsがインストールされると、Ultralyticsのモデルトレーニングモードはトレーニング中に自動的に画像オーグメンテーションを適用します。Albumentationsがインストールされていない場合、これらのオーグメンテーションは適用されません。詳細については、公式のUltralyticsドキュメントを参照してください。
Link to this sectionAlbumentationsの統合によるYOLO11のトレーニング#
Albumentationsの統合の内部で何が起きているのか、理解を深めましょう。
YOLO11のトレーニング中に適用されるオーグメンテーションの詳細を以下に示します。
- Blur (ぼかし): この変換は画像にわずかなぼかしを加えます。これにより、オブジェクトが焦点から外れている場合でもモデルが検出できるよう支援します。
- Median blur (メディアンブラー): 画像内のオブジェクトの境界を維持しながらランダムノイズを低減します。これにより、モデルが複雑な環境でオブジェクトを検出しやすくなります。
- Grayscale (グレースケール): 画像を白黒に変換することで、このオーグメンテーションはモデルが色ではなく形状やテクスチャに集中できるように支援します。
- CLAHE (Contrast limited adaptive histogram equalization): このオーグメンテーションは画像のコントラストを向上させます。特に低照度や霧のような状況など、暗すぎる、または見にくい領域において効果的です。これにより、それらの領域内のオブジェクトがより鮮明になり、モデルが識別しやすくなります。

図3 猫の画像に適用されたグレースケールオーグメンテーションの例。
Link to this sectionYOLO11とAlbumentationsの統合の適用例#
特定のアプリケーションのためにYOLO11をカスタムトレーニングしている場合、Albumentationsの統合は様々な条件に適応することでモデルのパフォーマンスを向上させるのに役立ちます。いくつかの実世界のアプリケーションと、この統合で解決できる課題について説明します。
Link to this section医療画像の改善#
ヘルスケア分野におけるビジョンAIは、医師が医学画像をより正確に分析し、診断を支援して患者ケアを向上させる一助となっています。実際、医療機関の約5分の1が、すでにヘルスケアソリューションにAIモデルを採用しています。
しかし、これらのコンピュータビジョンソリューションの構築には、独自の課題があります。医学的スキャンは病院によって大きく異なる可能性があり、使用する機器、設定、技術者の経験といった要因に影響を受けます。明るさ、コントラスト、露出の変化はビジョンAIモデルの一貫性と精度に影響を与える可能性があり、異なる環境間で確実に機能させることが困難になる場合があります。
ここで、Albumentationsのようなツールの統合が不可欠となります。同じスキャンの複数のオーグメンテーションバージョンを生成することで、Albumentationsはモデルが様々な画像品質から学習できるようにします。これにより、モデルはより堅牢になり、高画質および低画質の画像の両方で病気を正確に検出できるようになります。

図4 オーグメンテーションされたX線画像。
Link to this sectionセキュリティと監視の強化#
ビジョンAIのもう一つの興味深い適用例は、セキュリティと監視です。リアルタイムオブジェクト検出は、セキュリティチームが潜在的な脅威を迅速に特定するのに役立ちます。
このアプリケーションに関連する主な懸念事項は、監視カメラが一日を通して様々な照明条件下で映像をキャプチャする点であり、これらの条件はモデルが画像を理解する方法に劇的な影響を与える可能性があります。低照度環境、まぶしさ、視認性の悪さといった要因により、コンピュータビジョンモデルがオブジェクトを検出したり、潜在的な脅威を継続的に認識したりすることが困難になる場合があります。
Albumentationsの統合は、異なる照明条件を模倣する変換を適用することで役立ちます。これにより、モデルは明るい環境と低照度の環境の両方でオブジェクトを検出できるように学習し、信頼性が向上し、困難な条件下での応答時間が短縮されます。
Link to this section小売ワークフローと顧客体験の再定義#
スーパーマーケットの通路でのこぼれ物、店内を走り回る犬、子供が商品ディスプレイを倒すといった出来事は、小売におけるビジョンAI環境においてエッジケースとなり得る日常的な出来事のほんの一部です。コンピュータビジョンは、買い物客の行動の追跡、通行量の監視、棚にある商品の特定を通じて、顧客体験を向上させるためにますます使用されています。しかし、これらの実世界の状況は、AIシステムが理解して正確に処理するのが難しい場合があります。
すべてのシナリオをコンピュータビジョンデータセットで表現できるわけではありませんが、Albumentationsの統合は、予期しない照明、珍しい角度、障害物など、考えられる多くの状況をカバーするためにデータをオーグメンテーションすることで役立ちます。これにより、コンピュータビジョンモデルが様々な条件に適応できるようになり、エッジケースへの対応能力が向上し、ダイナミックな小売環境において正確な予測が可能になります。
Link to this section重要なポイント#
モデルトレーニングのための多様な実世界のデータの収集は複雑になる可能性がありますが、Albumentationsはモデルが異なる条件に適応できるようにする画像のバリエーションを作成することで、これを容易にします。
UltralyticsによってサポートされるAlbumentationsの統合は、YOLO11のカスタムトレーニング中にこれらのオーグメンテーションを適用するプロセスを簡素化します。これにより、データセットの品質が向上し、より正確で信頼性の高いビジョンAIモデルを生み出すことで、幅広い業界に利益をもたらします。
私たちのコミュニティに参加してGitHubリポジトリを探索し、AIについてさらに学び、ライセンスオプションをチェックしてビジョンAIプロジェクトを始動させましょう。製造におけるAIや自動運転におけるコンピュータビジョンといったイノベーションに関心がありますか?ソリューションページにアクセスして詳細をご覧ください。






