ImageNetをご覧ください。1400万枚以上の画像でコンピュータビジョンの進歩を促進し、AI研究、モデル、アプリケーションを強化する画期的なデータセットです。
ImageNetは、画像に写っているオブジェクトを示すために手作業でアノテーションが付けられた1400万枚以上の画像の大規模な公開データセットです。WordNet階層に従って編成されており、「風船」や「イチゴ」など、数百枚の画像で構成される一般的なカテゴリを含む20,000を超えるカテゴリが含まれています。この膨大で多様なコレクションは、コンピュータビジョン(CV)と深層学習(DL)の分野の進歩に役立ち、モデルのトレーニングとベンチマークの標準として機能しています。
スタンフォード大学の研究者によるImageNetの作成は、人工知能 (AI)にとって極めて重要な瞬間でした。ImageNet以前は、データセットが小さすぎて複雑なニューラルネットワーク (NN)を効果的にトレーニングできず、過学習などの問題が発生していました。ImageNetは、深層モデルをトレーニングするために必要な規模を提供し、現代のAI革命への道を開きました。詳細については、元のImageNetの研究論文をお読みください。
ImageNetの影響は、2010年から2017年まで毎年開催されたImageNet Large Scale Visual Recognition Challenge(ILSVRC)によって増幅されました。このチャレンジは、コンピュータビジョンアルゴリズムの性能を評価するための重要なベンチマークとなりました。2012年、AlexNetというConvolutional Neural Network(CNN)が画期的な勝利を収め、以前のすべてのモデルを大幅に上回りました。この成功は、ディープラーニングとGPU計算の威力を示し、この分野に革新の波を引き起こしました。ILSVRCは、多くの最新アーキテクチャの開発における重要な推進力となっており、Papers with Codeのようなサイトで、今日のモデルがさまざまなベンチマークでどのように機能するかを確認できます。
ImageNetの主な用途は、モデルを事前トレーニングするためのリソースとしてです。この膨大なデータセットでモデルをトレーニングすることにより、豊富な視覚的特徴を認識することを学習します。この知識は、新しい、より具体的なタスクに転送できます。この手法は、転移学習と呼ばれています。
ImageNetを他の関連用語やデータセットと区別することが重要です。
YOLO11のようなモデルは、検出タスクのためにCOCOでトレーニングされる前に、分類バックボーンのためにImageNetで事前トレーニングされることがよくあります。この多段階トレーニングプロセスは、両方のデータセットの強みを活用します。当社のモデル比較ページで、これらのベンチマークで異なるモデルがどのように比較されるかを確認できます。非常に影響力がありますが、ImageNetには、AI倫理の観点から考慮することが重要な、既知のデータセットバイアスを含む制限があることに注意することが重要です。