Yolo 深圳
深セン
今すぐ参加

2025年における最適なコンピュータビジョンデータセットの探求

Abirami Vina

5分で読めます

2025年2月21日

2025年の最高のコンピュータビジョンデータセットを詳しく見ていきます。多様で高品質なデータセットが、よりスマートなVision AIソリューションをどのように推進するかを学びましょう。

あなたが毎日するほとんどすべてのことにデータが関わっていることをご存知だろうか。ビデオを見たり、写真を撮ったり、Google チェックしたりすることは、750億台以上の接続された機器によって常に取り込まれる情報の流れに貢献している。これらのデータは人工知能(AI)の基盤を形成している。実際 Ultralytics YOLO11のような高度なコンピュータ・ビジョン・モデルは、パターンを特定し、画像を解釈し、私たちを取り巻く世界を理解するために視覚データに依存している。

興味深いことに、データの価値は単に量だけではありません。データの整理と準備がどれだけ適切に行われているかがより重要です。データセットが乱雑であったり、不完全であったりすると、間違いにつながる可能性があります。しかし、データセットがクリーンで多様性がある場合、群衆の中のオブジェクトを認識したり、複雑なビジュアルを分析したりするなど、コンピュータビジョンモデルのパフォーマンス向上に役立ちます。高品質なデータセットがすべてを変えます。

この記事では、2025年の最高のコンピュータビジョンデータセットを探り、それらがより正確で効率的なコンピュータビジョンモデルの構築にどのように貢献するかを見ていきます。それでは、始めましょう。

コンピュータビジョンデータセットとは何ですか?

コンピュータビジョンデータセットは、コンピュータビジョンシステムが視覚情報を理解し認識することを学習するのに役立つ画像またはビデオのコレクションです。これらのデータセットには、モデルがデータ内のオブジェクト、人物、シーン、およびパターンを認識するのに役立つラベルまたはアノテーションが付属しています。

これらは、コンピュータビジョンモデルをトレーニングするために使用でき、顔の識別、物体の検出、シーンの分析などのタスクを改善するのに役立ちます。データセットが優れているほど(適切に整理され、多様で、正確であるほど)、Vision AIモデルのパフォーマンスが向上し、日常生活でよりスマートで便利なテクノロジーにつながります。

コンピュータビジョンデータセットの構築方法

コンピュータビジョンのデータセットを構築することは、誰かに世界を見て理解する方法を教えるための学習ノートを準備するようなものです。まず、開発している特定のアプリケーションに一致する画像や動画を収集することから始まります。 

理想的なデータセットには、さまざまな角度から、さまざまな照明条件で、複数の背景や環境でキャプチャされた、対象オブジェクトの多様な例が含まれています。この多様性により、コンピュータビジョンモデルはパターンを正確に認識し、現実世界のシナリオで確実に実行できるようになります。

__wf_reserved_inherit
図1. 完璧なビジョンデータセットの構築。画像提供:著者。

関連する画像と動画を収集した後、次のステップはデータラベリングです。このプロセスでは、AIが各画像または動画に何が含まれているかを理解できるように、タグ、アノテーション、または説明をデータに追加します。 

ラベルには、オブジェクト名、場所、境界、またはモデルが視覚情報を正確に認識および解釈するのに役立つその他の関連詳細を含めることができます。データラベリングは、画像の単純なコレクションを、コンピュータビジョンモデルをトレーニングするために使用できる構造化されたデータセットに変換します。

モデルのトレーニングには高品質のデータが必要です

何が高品質なデータセットを作るのか疑問に思われるかもしれません。正確なラベリング、多様性、一貫性など、多くの要因が関係しています。たとえば、複数のアノテーターが物体検出データセットにラベルを付けて猫の耳を識別する場合、ある人は頭の一部としてラベルを付け、別の人は耳として別々にラベルを付けるかもしれません。この不整合はモデルを混乱させ、正しく学習する能力に影響を与える可能性があります。

理想的なコンピュータビジョンデータセットの品質の概要を以下に示します。

  • 明確なラベル: 各画像には、一貫性のある正確なラベルが正確にアノテーションされています。
  • 多様なデータ: データセットには、さまざまな状況でモデルがうまく機能するように、さまざまなオブジェクト、背景、照明条件、および角度が含まれています。
  • 高解像度画像: シャープで詳細な画像により、モデルは特徴をより簡単に学習および認識できます。

Ultralytics 様々なデータセットをサポートする

YOLO11ようなUltralytics YOLO モデルは、特定のYOLO ファイル形式のデータセットで動作するように構築されています。ご自身のデータをこのフォーマットに変換するのは簡単ですが、すぐに実験を始めたい方のために、手間のかからないオプションもご用意しています。 

Ultralytics Python パッケージは、幅広いコンピュータビジョンデータセットをサポートしており、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定などのタスクを使用するプロジェクトに、余分なセットアップなしで飛び込むことができます。  

ユーザーは、学習関数のパラメータの1つとしてデータセット名を指定することで、COCO、DOTA-v2.0、Open Images V7、ImageNet ようなすぐに使えるデータセットに簡単にアクセスできます。そうすることで、データセットが自動的にダウンロードされ、事前に設定されるため、モデルの構築と改良に集中することができます。

2025年 コンピュータビジョンデータセット トップ5

ビジョンAIの進歩は、イノベーションを推進し、ブレークスルーを可能にする多様で大規模なデータセットに依存しています。Ultralyticsサポートする、コンピュータビジョンモデルに影響を与える最も重要なデータセットを見てみましょう。

ImageNet データセット 

ImageNet2007年にプリンストン大学のFei-Fei Liとそのチームによって作成され、2009年に導入されたImageNetは、1400万枚以上のラベル付き画像を含む大規模なデータセットである。 さまざまな物体を認識・分類するシステムの学習に広く利用されている。その構造化された設計により、画像を正確にclassify するモデルの学習に特に有用である。十分に文書化されているが、主に画像分類に焦点が当てられており、物体検出のようなタスクの詳細な注釈が欠けている。 

ここでは、ImageNet主な強みを紹介しよう:

  • 多様性:20,000以上のカテゴリにまたがる画像を持つImageNet 、モデルの訓練と汎化を強化する膨大かつ多様なデータセットを提供する。
  • 構造化された編成: 画像はWordNetの階層構造を使用して綿密に分類されており、効率的なデータ検索と体系的なモデル学習を促進します。
  • 包括的なドキュメント広範な研究と長年の研究により、ImageNet 初心者にも専門家にもわかりやすく、コンピュータビジョンプロジェクトのための貴重な洞察と指針を提供します。

ただし、どのようなデータセットでもそうであるように、このデータセットにも限界があります。考慮すべき課題を以下に示します。

  • 計算需要: その巨大なサイズは、限られたコンピューティングリソースしかない小規模なチームにとって課題となる可能性があります。
  • 時間的データの欠如: 静止画像のみを含むため、ビデオまたは時間ベースのデータを必要とするアプリケーションのニーズを満たせない場合があります。
  • 古い画像: データセット内の一部の画像は古く、現在のオブジェクト、スタイル、または環境を反映していない可能性があり、最新のアプリケーションとの関連性を低下させる可能性があります。

DOTA-v2.0データセット

DOTA-v2.0データセット(DOTAはDataset for Object Detection in Aerial Imagesの略)は、傾斜バウンディングボックス(OBB)オブジェクト検出用に特別に作成された航空写真の広範なコレクションです。OBB検出では、回転されたバウンディングボックスを使用して、画像内のオブジェクトの実際の向きにより正確に合わせます。この方法は、オブジェクトがさまざまな角度で表示されることが多い航空画像に特に適しており、より正確なローカリゼーションと全体的な検出の向上につながります。

このデータセットは、18のオブジェクトカテゴリにわたる11,000枚以上の画像と170万個以上の向き付きバウンディングボックスで構成されています。画像は800×800から20,000×20,000ピクセルまでの範囲で、飛行機、船、建物などのオブジェクトが含まれています。 

__wf_reserved_inherit
Fig 2. DOTA-v2.0データセットからの画像とアノテーションの例。画像は著者による。

詳細なアノテーションにより、DOTA-v2.0はリモートセンシングおよび航空監視プロジェクトで広く利用されています。DOTA-v2.0の主な機能は次のとおりです。

  • 多様なオブジェクトカテゴリ: 車両、港、貯蔵タンクなど、さまざまなオブジェクトタイプをカバーしており、モデルにさまざまな現実世界のオブジェクトへの露出を提供します。
  • 高品質のアノテーション: 専門のアノテーターが、オブジェクトの形状と方向を明確に示す、正確に方向付けられたバウンディングボックスを提供しています。
  • マルチスケール画像:データセットにはさまざまなサイズの画像が含まれており、モデルが小さいスケールと大きいスケールの両方で物体をdetect する方法を学習するのに役立つ。

DOTA-v2には多くの強みがありますが、ユーザーが留意すべきいくつかの制限事項を以下に示します。

  • 追加のダウンロード手順: DOTAデータセットの管理方法により、DOTA-v2.0には追加のセットアップ手順が必要です。最初にDOTA-v1.0イメージをダウンロードし、次にDOTA-v2.0用の追加イメージと更新されたアノテーションを追加して、データセットを完成させる必要があります。
  • 複雑なアノテーション: 傾斜バウンディングボックスは、モデルのトレーニング中に処理するために追加の労力がかかる場合があります。
  • 限定的な適用範囲: DOTA-v2は航空写真用に設計されているため、このドメイン外の一般的な物体検出タスクにはあまり役立ちません。

Roboflow 100データセット 

Roboflow 100(RF100)データセットはRoboflow Intel支援を受けて作成した。オブジェクト検出モデルがどの程度機能するかをテストし、ベンチマークするために使用できる。このベンチマークデータセットには、90,000以上の公開データセットから選ばれた100種類のデータセットが含まれています。ヘルスケア、航空写真、ゲームなどの分野から224,000以上の画像と800以上のオブジェクトクラスが含まれている。 

以下に、RF100を使用する主な利点をいくつか示します。

  • 幅広いドメインカバレッジ: 医療画像、航空写真、水中探査など、7つの分野のデータセットが含まれています。 
  • モデル改善の促進:RF100における変動性とドメイン固有の課題は、現在のモデルのギャップを明らかにし、より適応性と堅牢性の高い物体検出ソリューションに向けた研究を推進します。
  • 一貫した画像形式: すべての画像は640x640ピクセルにリサイズされます。これにより、ユーザーは画像サイズを調整せずにモデルをトレーニングできます。

RF100には強みがある一方で、留意すべきいくつかの欠点もあります。

  • タスクの制限: RF100は物体検出用に設計されているため、セグメンテーションや分類などのタスクには対応できません。
  • ベンチマーク中心の焦点: RF100は、主に実際のアプリケーション向けのモデルをトレーニングするためのツールとしてではなく、ベンチマークツールとして設計されているため、その結果が実際の展開シナリオに完全に移行するとは限りません。
  • アノテーションの多様性: RF100はクラウドソースのデータセットを集約するため、アノテーションの品質とラベリングの実践に一貫性がない可能性があり、モデルの評価とファインチューニングに影響を与える可能性があります。

COCO (Common objects in context) データセット

COCO データセットは、最も広く利用されているコンピュータビジョンデータセットの1つで、33万枚以上の画像と詳細な画像注釈を提供しています。オブジェクト検出、セグメンテーション、画像キャプション用に設計されており、多くのプロジェクトで貴重なリソースとなっています。バウンディングボックスやセグメンテーションマスクを含む詳細なラベルは、システムが画像を正確に分析するための学習に役立ちます。

このデータセットはその柔軟性で知られており、単純なプロジェクトから複雑なプロジェクトまで、さまざまなタスクに役立ちます。ビジョンAIの分野では標準となっており、モデルの性能を評価するための課題やコンペティションで頻繁に使用されています。

その強みには、以下が含まれます。

  • 多様で現実的なデータ: データセットには、複数のオブジェクト、オクルージョン、およびさまざまな照明条件を備えた現実世界のシナリオからの画像が含まれています。
  • 強力なコミュニティと研究での採用:主要な機械学習コンペティションや研究で使用されているCOCO データセットは、広範なドキュメンテーション、訓練済みモデル、活発なコミュニティサポートを持っている。
  • 豊富で詳細な注釈:COCO データセットは、オブジェクトのセグメンテーション、キーポイント、キャプションを含む非常に詳細なアノテーションを提供し、正確な視覚的理解を必要とするプロジェクトに最適です。

以下に、注意すべきいくつかの制限要因を示します。

  • 高い計算要件:そのサイズと複雑さゆえに、COCO モデル学習には膨大な計算リソースが必要となり、ハード ウェアの限られたチームにとっては困難なものとなる。
  • データ不均衡:一部の物体カテゴリは、他のカテゴリよりも大幅に多くの画像を持っているため、モデルのトレーニングに偏りが生じる可能性があります。
  • 複雑なアノテーション構造: データセットの詳細なアノテーションは、価値がある一方で、構造化されたVision AIデータセットの操作経験がない初心者や小規模チームにとっては圧倒される可能性があります。

Open images V7 データセット

Open Images V7は、Googleキュレーションされた大規模なオープンソースデータセットで、600のオブジェクトカテゴリに対するアノテーションを持つ900万枚以上の画像が収録されています。様々な種類のアノテーションが含まれており、複雑なコンピュータビジョンタスクに取り組むのに最適です。その規模と深さは、コンピュータビジョンモデルのトレーニングとテストのための包括的なリソースを提供します。

__wf_reserved_inherit
図3. Open Images V7データセットの概要。画像は著者による。

また、Open Images V7データセットは、研究での人気が高いため、ユーザーが学習するためのリソースと例が豊富に用意されています。ただし、その巨大なサイズにより、特に小規模なチームにとっては、ダウンロードと処理に時間がかかる場合があります。もう1つの問題は、一部のアノテーションに一貫性がない場合があり、データのクリーニングに追加の労力が必要になることと、統合が必ずしもシームレスではないため、追加の準備が必要になる可能性があることです。 

適切なデータセットの選択 

適切なデータセットを選ぶことは、コンピュータビジョンプロジェクトを成功させるための重要な要素です。最適な選択は、特定のタスクによって異なります。適切なデータセットを選択することで、モデルは適切なスキルを習得できます。また、ツールとの統合が容易である必要があるため、モデルの構築により集中し、トラブルシューティングに費やす時間を減らすことができます。

__wf_reserved_inherit
図4. 適切なデータセットを選択するための要素。画像は著者による。

主なポイント

高品質のデータセットは、あらゆるコンピュータビジョンモデルのバックボーンであり、システムが画像を正確に解釈することを学習するのに役立ちます。多様で適切にアノテーションが付けられたデータセットは特に重要です。これにより、モデルは実際のシナリオで確実に実行でき、限られたデータや低品質のデータによって引き起こされるエラーを削減できます。

Ultralytics 、コンピュータビジョンのデータセットへのアクセスや作業のプロセスを簡素化し、プロジェクトに適したデータを簡単に見つけることができます。適切なデータセットを選択することは、より正確でインパクトのある結果につながる、高性能なモデルを構築する上で非常に重要なステップです。

ぜひコミュニティに参加し、GitHubリポジトリを探求して、AIについてもっと学びましょう。ソリューションページでは、ヘルスケア向けのコンピュータビジョン自動運転車におけるAIのような進歩をご覧いただけます。ライセンスオプションを確認して、今日からコンピュータビジョンを始めましょう!

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる