用語集

イメージネット

1,400万枚以上の画像から構成され、AI研究、モデル、アプリケーションの発展に貢献する画期的なデータセット、ImageNetをご覧ください。

ImageNetは、1,400万枚以上の画像からなる、一般にアクセス可能な巨大なデータセットで、どのような物体が写っているかを示すために手作業で注釈がつけられている。WordNetの階層構造に従って整理されたこのデータセットには、20,000以上のカテゴリが含まれており、「風船」や「イチゴ」といった典型的なカテゴリは数百の画像で構成されている。この膨大かつ多様なコレクションは、コンピュータビジョン(CV)やディープラーニング(DL)の分野を発展させるのに役立っており、モデルのトレーニングやベンチマークの基準となっている。

スタンフォード大学の研究者たちによるImageNetの創設は、人工知能(AI)にとって極めて重要な出来事だった。ImageNet以前は、複雑なニューラルネットワーク(NN)を効果的に訓練するにはデータセットが小さすぎることが多く、オーバーフィッティングなどの問題が生じていた。ImageNetはディープモデルの学習に必要な規模を提供し、現代のAI革命への道を開いた。詳しくはImageNetの研究論文をご覧ください。

イマジネット大規模視覚認識チャレンジ(ILSVRC)

ImageNetの影響力は、2010年から2017年まで毎年開催されたImageNet大規模視覚認識チャレンジ(ILSVRC)によって増幅された。このチャレンジは、コンピュータビジョンアルゴリズムの性能を評価するための重要なベンチマークとなった。2012年、AlexNetと名付けられた畳み込みニューラルネットワーク(CNN)が、それまでのすべてのモデルを大幅に上回る画期的な勝利を収めた。この成功は、ディープラーニングとGPU計算の力を実証し、この分野での技術革新の波に火をつけた。ILSVRCは、多くの最新アーキテクチャの開発において重要な原動力となっており、Papers with Codeのようなサイトでは、今日のモデルがさまざまなベンチマークでどのような性能を発揮するかを見ることができる。

イマジネットの実世界での応用

ImageNetの主な用途は、モデルを事前学習するためのリソースである。この膨大なデータセットでモデルをトレーニングすることで、モデルは豊富な視覚的特徴のセットを認識することを学習する。この知識は、新しい、より具体的なタスクに転送することができる。この手法は転移学習として知られている。

  1. 医療画像解析: Ultralytics YOLOモデルのようなImageNetで事前に訓練されたモデルは、腫瘍のような特定の状態を検出するために、医療スキャンからなる、より小規模で特殊なデータセット上で微調整することができます。ImageNetでの最初のトレーニングは、一般的な視覚的理解の強力な基礎を提供します。これは、ラベル付きデータが乏しい医療画像分析タスクで高い精度を達成するために極めて重要です。これはヘルスケアにおけるAIの重要な応用である。
  2. 小売製品の認識:小売業では、自動在庫管理のために、棚にある何千種類もの商品を識別するためにモデルを適応させることができる。ゼロからトレーニングする代わりに、ImageNetで事前にトレーニングされたモデルを店舗の特定の商品に迅速に適応させることができます。これにより、大量のカスタムトレーニングデータの必要性が減り、モデルの展開が加速する。小売業における多くの強力なAIソリューションは、このアプローチを活用している。

イマジネットと関連コンセプトの比較

ImageNetを他の関連用語やデータセットと区別することは重要である:

  • ImageNetとCVタスクの比較:ImageNetそのものはデータセットであり、ラベル付けされた画像のコレクションである。タスクではない。その代わり、画像分類のようなタスクを実行するモデルの訓練とベンチマークに使用されます。これは、バウンディングボックスを使用してオブジェクトを検出するオブジェクト検出や、画像内のすべてのピクセルを分類する画像セグメンテーションとは異なります。
  • ImageNetとCOCOの比較:ImageNetが分類のゴールドスタンダードである一方、他のコンピュータビジョンデータセットは他のタスクにより適している。例えば、COCO(Common Objects in Context)データセットは、物体検出とインスタンス分割のベンチマークとして好まれている。これはCOCOが、各画像内の複数のオブジェクトに対して、バウンディングボックスやピクセル単位のセグメンテーションマスクなど、より詳細な注釈を提供しているためである。対照的に、ほとんどのImageNet画像には画像レベルのラベルが1つしかない。

YOLO11のようなモデルは、検出タスクのためにCOCOで学習される前に、分類のバックボーンとしてImageNetで事前に学習されることが多い。この多段階の学習プロセスにより、両方のデータセットの強みが活用されます。モデル比較のページでは、これらのベンチマークで異なるモデルがどのように比較されているかを見ることができます。大きな影響力を持つ一方で、ImageNetには、AI倫理の観点から考慮すべき重要な既知のデータセットバイアスを含む限界があることは注目に値する。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク