1,400万枚以上の画像から構成され、AI研究、モデル、アプリケーションの発展に貢献する画期的なデータセット、ImageNetをご覧ください。
ImageNetは、1,400万枚以上の画像からなる、一般にアクセス可能な巨大なデータセットで、どのような物体が写っているかを示すために手作業で注釈がつけられている。WordNetの階層構造に従って整理されたこのデータセットには、20,000以上のカテゴリが含まれており、「風船」や「イチゴ」といった典型的なカテゴリは数百の画像で構成されている。この膨大かつ多様なコレクションは、コンピュータビジョン(CV)やディープラーニング(DL)の分野を発展させるのに役立っており、モデルのトレーニングやベンチマークの基準となっている。
スタンフォード大学の研究者たちによるImageNetの創設は、人工知能(AI)にとって極めて重要な出来事だった。ImageNet以前は、複雑なニューラルネットワーク(NN)を効果的に訓練するにはデータセットが小さすぎることが多く、オーバーフィッティングなどの問題が生じていた。ImageNetはディープモデルの学習に必要な規模を提供し、現代のAI革命への道を開いた。詳しくはImageNetの研究論文をご覧ください。
ImageNetの影響力は、2010年から2017年まで毎年開催されたImageNet大規模視覚認識チャレンジ(ILSVRC)によって増幅された。このチャレンジは、コンピュータビジョンアルゴリズムの性能を評価するための重要なベンチマークとなった。2012年、AlexNetと名付けられた畳み込みニューラルネットワーク(CNN)が、それまでのすべてのモデルを大幅に上回る画期的な勝利を収めた。この成功は、ディープラーニングとGPU計算の力を実証し、この分野での技術革新の波に火をつけた。ILSVRCは、多くの最新アーキテクチャの開発において重要な原動力となっており、Papers with Codeのようなサイトでは、今日のモデルがさまざまなベンチマークでどのような性能を発揮するかを見ることができる。
ImageNetの主な用途は、モデルを事前学習するためのリソースである。この膨大なデータセットでモデルをトレーニングすることで、モデルは豊富な視覚的特徴のセットを認識することを学習する。この知識は、新しい、より具体的なタスクに転送することができる。この手法は転移学習として知られている。
ImageNetを他の関連用語やデータセットと区別することは重要である:
YOLO11のようなモデルは、検出タスクのためにCOCOで学習される前に、分類のバックボーンとしてImageNetで事前に学習されることが多い。この多段階の学習プロセスにより、両方のデータセットの強みが活用されます。モデル比較のページでは、これらのベンチマークで異なるモデルがどのように比較されているかを見ることができます。大きな影響力を持つ一方で、ImageNetには、AI倫理の観点から考慮すべき重要な既知のデータセットバイアスを含む限界があることは注目に値する。