用語集

イメージネット

1,400万枚以上の画像から構成され、AI研究、モデル、アプリケーションの発展に貢献する画期的なデータセット、ImageNetをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ImageNetは、コンピュータビジョン(CV)の研究開発で広く使われている、非常に大規模で基礎的なデータセットである。このデータセットには、写っている対象を示すために手作業で注釈が付けられた1,400万枚以上の画像が含まれている。これらの画像は、English 名詞、動詞、形容詞、副詞を認知同義語(synsets)の集合にグループ化した大規模な語彙データベースであるWordNet階層に従って整理されている。20,000以上のカテゴリを持つImageNetは、特に画像分類や 画像認識のようなタスクにおいて、機械学習(ML)モデルの訓練と評価に豊富で多様なリソースを提供する。その膨大なスケールと詳細な注釈は、人工知能(AI)の分野を発展させる上で極めて重要です。このデータセットをUltralytics モデルで使用する方法については、ImageNet Dataset documentation pageで詳しく説明されています。

意義と妥当性

ImageNetの登場は、ディープラーニング(DL)、特にコンピュータビジョンにとって極めて重要な出来事だった。ImageNetが登場する以前は、大規模かつ多様で、ラベル付けされたデータセットがないことが、進歩の妨げとなっていた。ImageNetのような高品質なデータセットは畳み込みニューラルネットワーク(CNN)のような、より深く複雑なモデルの学習を可能にし、視覚理解タスクにおける大きなブレークスルーをもたらした。2010年から2017年まで毎年開催されたImageNet Large Scale Visual Recognition Challenge(ILSVRC)は、ImageNetのサブセットを使用し、画像分類と物体検出アルゴリズムを評価するための標準的なベンチマークデータセットとなった。ImageNetで最先端の結果を達成したAlexNetや ResNetのような画期的なモデルは、現代のCVアーキテクチャに大きな影響を与え、大規模データにおける深層学習の力を実証した。ILSVRCのオリジナル論文では、この挑戦とその影響についてさらに詳しく説明している。

イメージネットの応用

ImageNetの主な用途は、新しいコンピュータビジョンモデルやアルゴリズム、特に画像分類の性能(精度や速度)を評価するための標準的なベンチマークとして機能することです。広く採用されているため、研究者は結果を公平に比較することができます。ベンチマーク以外にも、ImageNetはモデルの事前学習に広く利用されています。事前トレーニングでは、まず大規模で一般的なImageNetデータセットでモデルをトレーニングし、ロバストな視覚的特徴を学習させます。これらの事前学習済みモデルは、多くの場合 PyTorchTensorFlowその後、転移学習を使って、より小さな、より特殊なデータセットで、様々な下流のタスク用に微調整することができる。これにより、対象となるタスクに必要なデータ量と計算量が大幅に削減され、特に対象となるデータセットが小さい場合には、多くの場合、性能が向上する。多くの Ultralytics YOLOモデルなどは、事前学習ストラテジーを活用している。Ultralytics HUBのようなプラットフォームは、このようなテクニックを使用したモデルのトレーニングプロセスを容易にします。

実例

ImageNetのインパクトは、学術研究をはるかに超えて、実用的なアプリケーションにまで広がっている:

  • 医療画像解析:ImageNetで事前に訓練されたモデルは、医療画像解析の特殊なタスクのために微調整されることが多い。医療画像はImageNetの写真とは大きく異なりますが、学習された基本的な視覚的特徴(エッジ、テクスチャ、基本的な形状など)は強力な出発点となります。このアプローチは、医療画像における腫瘍の検出や、X線やCTスキャンにおける異常の特定といったタスクのためのAIツールの開発を加速し、ヘルスケアにおけるAIの進歩に貢献する。
  • 自律システム: 自律走行車や ロボット工学における知覚システムは、歩行者、車、交通標識、障害物などの物体を正確に識別することに大きく依存しています。このようなシステムの物体認識コンポーネントをImageNetで事前学習させることで、一般的な物体の特徴を学習させ、特定の運転や操作環境のデータで微調整する際のロバスト性と信頼性を向上させることができます。これは、Waymoが使用し、車載ソリューションのAIに統合されているような技術の開発に貢献します。

イメージネットと関連概念の比較

ImageNetを、それがサポートするタスクや他の関連データセットと区別することは重要である:

  • ImageNetとCVタスクの比較:ImageNet自体はデータセットであり、ラベル付けされた画像の集まりである。画像分類(画像に1つのラベルを割り当てる)、オブジェクト検出バウンディングボックスでオブジェクトを見つける)、画像セグメンテーションインスタンスセグメンテーションと セマンティックセグメンテーションを含む、各ピクセルにラベルを割り当てる)のようなタスクではない。その代わり、ImageNetは主にこれらのタスク、特に分類を実行するモデルの訓練と ベンチマークに使用される。
  • ImageNetとCOCOの比較:ImageNetが分類の標準であるのに対し、COCO(Common Objects in Context)のようなデータセットは、オブジェクト検出とセグメンテーションのベンチマークによく使われる。これは、ImageNetが主に画像レベルのラベルを提供するのに対し、COCOには、画像ごとに複数のオブジェクトに対する正確なバウンディングボックスやピクセルごとのセグメンテーションマスクなど、これらのタスクに必要なより詳細な注釈が含まれているためです(オブジェクトのローカライゼーションデータも存在します)。Ultralytics 、さまざまなタスクに対応するさまざまなコンピュータビジョンデータセットをサポートしています。

多大な影響力を持つ一方で、ImageNetには、データ収集期間やソースを反映した潜在的なデータセットの偏りなどの限界もあり、これはAI倫理において重要な考慮事項である。

すべて読む