1,400万枚以上の画像から構成され、AI研究、モデル、アプリケーションの発展に貢献する画期的なデータセット、ImageNetをご覧ください。
ImageNetは、コンピュータビジョン(CV)の研究開発で広く使われている、非常に大規模で基礎的なデータセットである。このデータセットには、写っている対象を示すために手作業で注釈が付けられた1,400万枚以上の画像が含まれている。これらの画像は、English 名詞、動詞、形容詞、副詞を認知同義語(synsets)の集合にグループ化した大規模な語彙データベースであるWordNet階層に従って整理されている。20,000以上のカテゴリを持つImageNetは、特に画像分類や 画像認識のようなタスクにおいて、機械学習(ML)モデルの訓練と評価に豊富で多様なリソースを提供する。その膨大なスケールと詳細な注釈は、人工知能(AI)の分野を発展させる上で極めて重要です。このデータセットをUltralytics モデルで使用する方法については、ImageNet Dataset documentation pageで詳しく説明されています。
ImageNetの登場は、ディープラーニング(DL)、特にコンピュータビジョンにとって極めて重要な出来事だった。ImageNetが登場する以前は、大規模かつ多様で、ラベル付けされたデータセットがないことが、進歩の妨げとなっていた。ImageNetのような高品質なデータセットは、畳み込みニューラルネットワーク(CNN)のような、より深く複雑なモデルの学習を可能にし、視覚理解タスクにおける大きなブレークスルーをもたらした。2010年から2017年まで毎年開催されたImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、ImageNetのサブセットを使用し、画像分類と物体検出アルゴリズムを評価するための標準的なベンチマークデータセットとなった。ImageNetで最先端の結果を達成したAlexNetや ResNetのような画期的なモデルは、現代のCVアーキテクチャに大きな影響を与え、大規模データにおける深層学習の力を実証した。ILSVRCのオリジナル論文では、この挑戦とその影響についてさらに詳しく説明している。
ImageNetの主な用途は、新しいコンピュータビジョンモデルやアルゴリズム、特に画像分類の性能(精度や速度)を評価するための標準的なベンチマークとして機能することです。広く採用されているため、研究者は結果を公平に比較することができます。ベンチマーク以外にも、ImageNetはモデルの事前学習に広く利用されています。事前トレーニングでは、まず大規模で一般的なImageNetデータセットでモデルをトレーニングし、ロバストな視覚的特徴を学習させます。これらの事前学習済みモデルは、多くの場合 PyTorchや TensorFlowその後、転移学習を使って、より小さな、より特殊なデータセットで、様々な下流のタスク用に微調整することができる。これにより、対象となるタスクに必要なデータ量と計算量が大幅に削減され、特に対象となるデータセットが小さい場合には、多くの場合、性能が向上する。多くの Ultralytics YOLOモデルなどは、事前学習ストラテジーを活用している。Ultralytics HUBのようなプラットフォームは、このようなテクニックを使用したモデルのトレーニングプロセスを容易にします。
ImageNetのインパクトは、学術研究をはるかに超えて、実用的なアプリケーションにまで広がっている:
ImageNetを、それがサポートするタスクや他の関連データセットと区別することは重要である:
多大な影響力を持つ一方で、ImageNetには、データ収集期間やソースを反映した潜在的なデータセットの偏りなどの限界もあり、これはAI倫理において重要な考慮事項である。