YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

ImageNet

ImageNetをご覧ください。1400万枚以上の画像でコンピュータビジョンの進歩を促進し、AI研究、モデル、アプリケーションを強化する画期的なデータセットです。

ImageNetは、画像に写っているオブジェクトを示すために手作業でアノテーションが付けられた1400万枚以上の画像の大規模な公開データセットです。WordNet階層に従って編成されており、「風船」や「イチゴ」など、数百枚の画像で構成される一般的なカテゴリを含む20,000を超えるカテゴリが含まれています。この膨大で多様なコレクションは、コンピュータビジョン(CV)深層学習(DL)の分野の進歩に役立ち、モデルのトレーニングとベンチマークの標準として機能しています。

スタンフォード大学の研究者によるImageNetの作成は、人工知能 (AI)にとって極めて重要な瞬間でした。ImageNet以前は、データセットが小さすぎて複雑なニューラルネットワーク (NN)を効果的にトレーニングできず、過学習などの問題が発生していました。ImageNetは、深層モデルをトレーニングするために必要な規模を提供し、現代のAI革命への道を開きました。詳細については、元のImageNetの研究論文をお読みください。

Imagenet大規模視覚認識チャレンジ(ILSVRC)

ImageNetの影響は、2010年から2017年まで毎年開催されたImageNet Large Scale Visual Recognition Challenge(ILSVRC)によって増幅されました。このチャレンジは、コンピュータビジョンアルゴリズムの性能を評価するための重要なベンチマークとなりました。2012年、AlexNetというConvolutional Neural Network(CNN)が画期的な勝利を収め、以前のすべてのモデルを大幅に上回りました。この成功は、ディープラーニングとGPU計算の威力を示し、この分野に革新の波を引き起こしました。ILSVRCは、多くの最新アーキテクチャの開発における重要な推進力となっており、Papers with Codeのようなサイトで、今日のモデルがさまざまなベンチマークでどのように機能するかを確認できます。

Imagenetの現実世界の応用

ImageNetの主な用途は、モデルを事前トレーニングするためのリソースとしてです。この膨大なデータセットでモデルをトレーニングすることにより、豊富な視覚的特徴を認識することを学習します。この知識は、新しい、より具体的なタスクに転送できます。この手法は、転移学習と呼ばれています。

  1. 医用画像解析:Ultralytics YOLOモデルのようなImageNetで事前トレーニングされたモデルは、腫瘍のような特定の状態を検出するために、医療スキャンのより小さく特殊化されたデータセットでファインチューニングできます。ImageNetでの初期トレーニングは、一般的な視覚理解の強力な基盤を提供し、ラベル付きデータが不足している医用画像解析タスクで高い精度を達成するために不可欠です。これは、医療におけるAIの重要な応用です。
  2. Retail Product Recognition: 小売業では、モデルを適応させて、自動在庫管理のために棚にある数千もの異なる製品を識別できます。ゼロからトレーニングする代わりに、ImageNetで事前トレーニングされたモデルを、店舗の特定の製品に迅速に適応させることができます。これにより、大量のカスタムトレーニングデータの必要性が軽減され、モデルのデプロイが加速されます。多くの強力な小売AIソリューションがこのアプローチを活用しています。

ImageNetと関連概念

ImageNetを他の関連用語やデータセットと区別することが重要です。

  • ImageNet vs. CVタスク: ImageNet自体はデータセットであり、ラベル付き画像のコレクションです。これはタスクではありません。代わりに、画像に単一のラベルが割り当てられる画像分類のようなタスクを実行するモデルをトレーニングおよびベンチマークするために使用されます。これは、バウンディングボックスを使用してオブジェクトを特定する物体検出や、画像内のすべてのピクセルを分類する画像セグメンテーションとは異なります。
  • ImageNet vs. COCO: ImageNetは分類のゴールドスタンダードですが、他のコンピュータビジョンデータセットは他のタスクに適しています。たとえば、COCO (Common Objects in Context)データセットは、物体検出とインスタンスセグメンテーションの推奨されるベンチマークです。これは、COCOが各画像の複数のオブジェクトに対して、バウンディングボックスやピクセル単位のセグメンテーションマスクなど、より詳細なアノテーションを提供するためです。対照的に、ほとんどのImageNet画像には、単一の画像レベルのラベルしかありません。

YOLO11のようなモデルは、検出タスクのためにCOCOでトレーニングされる前に、分類バックボーンのためにImageNetで事前トレーニングされることがよくあります。この多段階トレーニングプロセスは、両方のデータセットの強みを活用します。当社のモデル比較ページで、これらのベンチマークで異なるモデルがどのように比較されるかを確認できます。非常に影響力がありますが、ImageNetには、AI倫理の観点から考慮することが重要な、既知のデータセットバイアスを含む制限があることに注意することが重要です。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました