YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

2025年における最適なコンピュータビジョンデータセットの探求

Abirami Vina

5分で読めます

2025年2月21日

2025年の最高のコンピュータビジョンデータセットを詳しく見ていきます。多様で高品質なデータセットが、よりスマートなVision AIソリューションをどのように推進するかを学びましょう。

データは、私たちの日常生活のほぼすべての場面で役割を果たしていることをご存知でしたか?動画の視聴、写真撮影、Googleマップの利用など、あらゆる行動が、750億台以上の接続されたデバイスによって収集される絶え間ない情報の流れに貢献しています。これらのデータこそが、人工知能(AI)の基盤を形成しています。実際、Ultralytics YOLO11のような高度なコンピュータビジョンモデルは、視覚データを利用してパターンを識別し、画像を解釈し、周囲の世界を理解しています。

興味深いことに、データの価値は単に量だけではありません。データの整理と準備がどれだけ適切に行われているかがより重要です。データセットが乱雑であったり、不完全であったりすると、間違いにつながる可能性があります。しかし、データセットがクリーンで多様性がある場合、群衆の中のオブジェクトを認識したり、複雑なビジュアルを分析したりするなど、コンピュータビジョンモデルのパフォーマンス向上に役立ちます。高品質なデータセットがすべてを変えます。

この記事では、2025年の最高のコンピュータビジョンデータセットを探り、それらがより正確で効率的なコンピュータビジョンモデルの構築にどのように貢献するかを見ていきます。それでは、始めましょう。

コンピュータビジョンデータセットとは何ですか?

コンピュータビジョンデータセットは、コンピュータビジョンシステムが視覚情報を理解し認識することを学習するのに役立つ画像またはビデオのコレクションです。これらのデータセットには、モデルがデータ内のオブジェクト、人物、シーン、およびパターンを認識するのに役立つラベルまたはアノテーションが付属しています。

これらは、コンピュータビジョンモデルをトレーニングするために使用でき、顔の識別、物体の検出、シーンの分析などのタスクを改善するのに役立ちます。データセットが優れているほど(適切に整理され、多様で、正確であるほど)、Vision AIモデルのパフォーマンスが向上し、日常生活でよりスマートで便利なテクノロジーにつながります。

コンピュータビジョンデータセットの構築方法

コンピュータビジョンのデータセットを構築することは、誰かに世界を見て理解する方法を教えるための学習ノートを準備するようなものです。まず、開発している特定のアプリケーションに一致する画像や動画を収集することから始まります。 

理想的なデータセットには、さまざまな角度から、さまざまな照明条件で、複数の背景や環境でキャプチャされた、対象オブジェクトの多様な例が含まれています。この多様性により、コンピュータビジョンモデルはパターンを正確に認識し、現実世界のシナリオで確実に実行できるようになります。

__wf_reserved_inherit
図1. 完璧なビジョンデータセットの構築。画像提供:著者。

関連する画像と動画を収集した後、次のステップはデータラベリングです。このプロセスでは、AIが各画像または動画に何が含まれているかを理解できるように、タグ、アノテーション、または説明をデータに追加します。 

ラベルには、オブジェクト名、場所、境界、またはモデルが視覚情報を正確に認識および解釈するのに役立つその他の関連詳細を含めることができます。データラベリングは、画像の単純なコレクションを、コンピュータビジョンモデルをトレーニングするために使用できる構造化されたデータセットに変換します。

モデルのトレーニングには高品質のデータが必要です

何が高品質なデータセットを作るのか疑問に思われるかもしれません。正確なラベリング、多様性、一貫性など、多くの要因が関係しています。たとえば、複数のアノテーターが物体検出データセットにラベルを付けて猫の耳を識別する場合、ある人は頭の一部としてラベルを付け、別の人は耳として別々にラベルを付けるかもしれません。この不整合はモデルを混乱させ、正しく学習する能力に影響を与える可能性があります。

理想的なコンピュータビジョンデータセットの品質の概要を以下に示します。

  • 明確なラベル: 各画像には、一貫性のある正確なラベルが正確にアノテーションされています。
  • 多様なデータ: データセットには、さまざまな状況でモデルがうまく機能するように、さまざまなオブジェクト、背景、照明条件、および角度が含まれています。
  • 高解像度画像: シャープで詳細な画像により、モデルは特徴をより簡単に学習および認識できます。

Ultralyticsはさまざまなデータセットをサポートしています

YOLO11のようなUltralytics YOLOモデルは、特定のYOLOファイル形式のデータセットで動作するように構築されています。ご自身のデータをこの形式に変換するのは簡単ですが、すぐに実験を始めたい方のために、手間のかからないオプションも提供しています。 

Ultralytics Pythonパッケージは、幅広いコンピュータビジョンデータセットをサポートしており、追加のセットアップなしに、物体検出、インスタンスセグメンテーション、ポーズ推定などのタスクを使用したプロジェクトにすぐに取り組むことができます。  

ユーザーは、トレーニング機能のパラメータの1つとしてデータセット名を指定することで、COCO、DOTA-v2.0、Open Images V7、ImageNetなどのすぐに使用できるデータセットに簡単にアクセスできます。そうすると、データセットは自動的にダウンロードされ、事前構成されるため、モデルの構築と改良に集中できます。

2025年 コンピュータビジョンデータセット トップ5

Vision AIの進歩は、イノベーションを促進し、ブレークスルーを可能にする多様で大規模なデータセットに依存しています。Ultralyticsがサポートする、コンピュータビジョンモデルに影響を与えている最も重要なデータセットのいくつかを見てみましょう。

ImageNetデータセット 

ImageNetは、Fei-Fei Liと彼女のプリンストン大学のチームによって2007年に作成され、2009年に発表された、1400万枚以上のラベル付き画像を含む大規模なデータセットです。さまざまなオブジェクトを認識および分類するためのシステムをトレーニングするために広く使用されています。その構造化された設計は、モデルに画像を正確に分類させるのに特に役立ちます。十分に文書化されていますが、主に画像分類に焦点を当てており、物体検出などのタスクの詳細なアノテーションはありません。 

ImageNetの主な強みをいくつかご紹介します。

  • 多様性: 20,000を超えるカテゴリにまたがる画像を備えたImageNetは、モデルのトレーニングと一般化を強化する、広大で多様なデータセットを提供します。
  • 構造化された編成: 画像はWordNetの階層構造を使用して綿密に分類されており、効率的なデータ検索と体系的なモデル学習を促進します。
  • 包括的なドキュメント:広範な調査と長年の研究により、ImageNetは初心者と専門家の両方がアクセスできるようになり、コンピュータビジョンプロジェクトに貴重な洞察とガイダンスを提供します。

ただし、どのようなデータセットでもそうであるように、このデータセットにも限界があります。考慮すべき課題を以下に示します。

  • 計算需要: その巨大なサイズは、限られたコンピューティングリソースしかない小規模なチームにとって課題となる可能性があります。
  • 時間的データの欠如: 静止画像のみを含むため、ビデオまたは時間ベースのデータを必要とするアプリケーションのニーズを満たせない場合があります。
  • 古い画像: データセット内の一部の画像は古く、現在のオブジェクト、スタイル、または環境を反映していない可能性があり、最新のアプリケーションとの関連性を低下させる可能性があります。

DOTA-v2.0データセット

DOTA-v2.0データセット(DOTAはDataset for Object Detection in Aerial Imagesの略)は、傾斜バウンディングボックス(OBB)オブジェクト検出用に特別に作成された航空写真の広範なコレクションです。OBB検出では、回転されたバウンディングボックスを使用して、画像内のオブジェクトの実際の向きにより正確に合わせます。この方法は、オブジェクトがさまざまな角度で表示されることが多い航空画像に特に適しており、より正確なローカリゼーションと全体的な検出の向上につながります。

このデータセットは、18のオブジェクトカテゴリにわたる11,000枚以上の画像と170万個以上の向き付きバウンディングボックスで構成されています。画像は800×800から20,000×20,000ピクセルまでの範囲で、飛行機、船、建物などのオブジェクトが含まれています。 

__wf_reserved_inherit
Fig 2. DOTA-v2.0データセットからの画像とアノテーションの例。画像は著者による。

詳細なアノテーションにより、DOTA-v2.0はリモートセンシングおよび航空監視プロジェクトで広く利用されています。DOTA-v2.0の主な機能は次のとおりです。

  • 多様なオブジェクトカテゴリ: 車両、港、貯蔵タンクなど、さまざまなオブジェクトタイプをカバーしており、モデルにさまざまな現実世界のオブジェクトへの露出を提供します。
  • 高品質のアノテーション: 専門のアノテーターが、オブジェクトの形状と方向を明確に示す、正確に方向付けられたバウンディングボックスを提供しています。
  • マルチスケール画像:データセットにはさまざまなサイズの画像が含まれており、モデルが小さいスケールと大きいスケールの両方でオブジェクトを検出する方法を学習するのに役立ちます。

DOTA-v2には多くの強みがありますが、ユーザーが留意すべきいくつかの制限事項を以下に示します。

  • 追加のダウンロード手順: DOTAデータセットの管理方法により、DOTA-v2.0には追加のセットアップ手順が必要です。最初にDOTA-v1.0イメージをダウンロードし、次にDOTA-v2.0用の追加イメージと更新されたアノテーションを追加して、データセットを完成させる必要があります。
  • 複雑なアノテーション: 傾斜バウンディングボックスは、モデルのトレーニング中に処理するために追加の労力がかかる場合があります。
  • 限定的な適用範囲: DOTA-v2は航空写真用に設計されているため、このドメイン外の一般的な物体検出タスクにはあまり役立ちません。

Roboflow 100データセット 

Roboflow 100(RF100)データセットは、RoboflowがIntelのサポートを受けて作成しました。オブジェクト検出モデルの動作をテストおよびベンチマークするために使用できます。このベンチマークデータセットには、90,000を超える公開データセットから選択された100種類のデータセットが含まれています。ヘルスケア、航空写真、ゲームなどの分野から、224,000を超える画像と800のオブジェクトクラスがあります。 

以下に、RF100を使用する主な利点をいくつか示します。

  • 幅広いドメインカバレッジ: 医療画像、航空写真、水中探査など、7つの分野のデータセットが含まれています。 
  • モデル改善の促進:RF100における変動性とドメイン固有の課題は、現在のモデルのギャップを明らかにし、より適応性と堅牢性の高い物体検出ソリューションに向けた研究を推進します。
  • 一貫した画像形式: すべての画像は640x640ピクセルにリサイズされます。これにより、ユーザーは画像サイズを調整せずにモデルをトレーニングできます。

RF100には強みがある一方で、留意すべきいくつかの欠点もあります。

  • タスクの制限: RF100は物体検出用に設計されているため、セグメンテーションや分類などのタスクには対応できません。
  • ベンチマーク中心の焦点: RF100は、主に実際のアプリケーション向けのモデルをトレーニングするためのツールとしてではなく、ベンチマークツールとして設計されているため、その結果が実際の展開シナリオに完全に移行するとは限りません。
  • アノテーションの多様性: RF100はクラウドソースのデータセットを集約するため、アノテーションの品質とラベリングの実践に一貫性がない可能性があり、モデルの評価とファインチューニングに影響を与える可能性があります。

COCO(Common objects in context)データセット

COCOデータセットは、最も広く使用されているコンピュータビジョンデータセットの1つであり、詳細な画像アノテーションを含む330,000を超える画像を提供します。オブジェクト検出、セグメンテーション、画像キャプション用に設計されており、多くのプロジェクトにとって貴重なリソースとなっています。バウンディングボックスやセグメンテーションマスクなどの詳細なラベルは、システムが画像を正確に分析することを学習するのに役立ちます。

このデータセットはその柔軟性で知られており、単純なプロジェクトから複雑なプロジェクトまで、さまざまなタスクに役立ちます。ビジョンAIの分野では標準となっており、モデルの性能を評価するための課題やコンペティションで頻繁に使用されています。

その強みには、以下が含まれます。

  • 多様で現実的なデータ: データセットには、複数のオブジェクト、オクルージョン、およびさまざまな照明条件を備えた現実世界のシナリオからの画像が含まれています。
  • 強力なコミュニティと研究での採用: 主要な機械学習コンペティションや研究で使用されているCOCOデータセットには、広範なドキュメント、事前トレーニング済みのモデル、および活発なコミュニティサポートがあります。
  • 豊富で詳細なアノテーション: COCOデータセットは、オブジェクトのセグメンテーション、キーポイント、キャプションなど、非常に詳細なアノテーションを提供しており、正確な視覚的理解を必要とするプロジェクトに最適です。

以下に、注意すべきいくつかの制限要因を示します。

  • 高い計算要件: サイズと複雑さのため、COCOでモデルをトレーニングするには、かなりの計算リソースが必要になる場合があり、ハードウェアが限られているチームにとっては困難です。
  • データ不均衡:一部の物体カテゴリは、他のカテゴリよりも大幅に多くの画像を持っているため、モデルのトレーニングに偏りが生じる可能性があります。
  • 複雑なアノテーション構造: データセットの詳細なアノテーションは、価値がある一方で、構造化されたVision AIデータセットの操作経験がない初心者や小規模チームにとっては圧倒される可能性があります。

Open images V7 データセット

Open Images V7は、Googleがキュレーションした大規模なオープンソースデータセットであり、600のオブジェクトカテゴリのアノテーションを含む900万を超える画像を備えています。さまざまな種類のアノテーションが含まれており、複雑なコンピュータビジョンのタスクに取り組むのに理想的です。その規模と深さは、コンピュータビジョンモデルのトレーニングとテストのための包括的なリソースを提供します。

__wf_reserved_inherit
図3. Open Images V7データセットの概要。画像は著者による。

また、Open Images V7データセットは、研究での人気が高いため、ユーザーが学習するためのリソースと例が豊富に用意されています。ただし、その巨大なサイズにより、特に小規模なチームにとっては、ダウンロードと処理に時間がかかる場合があります。もう1つの問題は、一部のアノテーションに一貫性がない場合があり、データのクリーニングに追加の労力が必要になることと、統合が必ずしもシームレスではないため、追加の準備が必要になる可能性があることです。 

適切なデータセットの選択 

適切なデータセットを選ぶことは、コンピュータビジョンプロジェクトを成功させるための重要な要素です。最適な選択は、特定のタスクによって異なります。適切なデータセットを選択することで、モデルは適切なスキルを習得できます。また、ツールとの統合が容易である必要があるため、モデルの構築により集中し、トラブルシューティングに費やす時間を減らすことができます。

__wf_reserved_inherit
図4. 適切なデータセットを選択するための要素。画像は著者による。

主なポイント

高品質のデータセットは、あらゆるコンピュータビジョンモデルのバックボーンであり、システムが画像を正確に解釈することを学習するのに役立ちます。多様で適切にアノテーションが付けられたデータセットは特に重要です。これにより、モデルは実際のシナリオで確実に実行でき、限られたデータや低品質のデータによって引き起こされるエラーを削減できます。

Ultralyticsは、コンピュータビジョンデータセットへのアクセスと操作のプロセスを簡素化し、プロジェクトに適したデータを見つけやすくします。適切なデータセットを選択することは、高性能モデルを構築するための重要なステップであり、より正確でインパクトのある結果につながります。

ぜひコミュニティに参加し、GitHubリポジトリを探求して、AIについてもっと学びましょう。ソリューションページでは、ヘルスケア向けのコンピュータビジョン自動運転車におけるAIのような進歩をご覧いただけます。ライセンスオプションを確認して、今日からコンピュータビジョンを始めましょう!

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました