1,400万枚以上の画像から構成され、AI研究、モデル、アプリケーションの発展に貢献する画期的なデータセット、ImageNetご覧ください。
ImageNet 、視覚的物体認識ソフトウェアの研究に使用するために設計された、大規模で広く引用されている視覚データベースです。 1,400万枚以上の画像が含まれており、どのような物体が写っているのか、また100万枚以上の画像では、物体がどこにあるのかを示すために、手作業で注釈がつけられている。 100万枚以上の画像において、オブジェクトがバウンディングボックスでどこに配置されているかを示すために、手作業で注釈がつけられています。WordNet 階層に従って WordNetの階層構造に従って ImageNet されたImageNet 、画像を特定の概念または 「シセット」に対応付けられ、コンピュータ・ビジョン(CV)モデルの訓練と評価のための基礎的なリソースとなっている。 コンピュータ・ビジョン(CV)モデルの訓練と評価のための基礎的なリソースとなっている。その巨大なスケールと多様性 その膨大なスケールと多様性により、研究者は小規模な実験を超えることができるようになり、事実上、現代のディープラーニング(DL)時代の幕開けとなった。 ディープラーニング(DL)の現代の幕開けとなった。
ImageNet以前は、ディープ・ニューラル・ネットワーク(NN)を訓練するには小さすぎるデータセットに苦労していた。 ニューラルネットワーク(NN)を オーバーフィッティングスタンフォード視覚・学習研究所の研究者によって作成された Stanford Vision and Learning Labの研究者たちによってImageNet されたImageNet 、このデータ不足の問題を解決した。 ImageNetは ImageNet Large Scale Visual Recognition Challenge (ILSVRC)、2010年から2017年まで毎年開催された競技会 2010年から2017年まで毎年開催された。
このコンペティションは、有名な建築家たちの実験場となった。2012年には アレックスネット・アーキテクチャが大差で優勝した。 を使用して 2012年、AlexNetアーキテクチャは、畳み込みニューラルネットワーク(CNN)を使用して、大差で優勝し、GPU上でのディープラーニングの可能性を証明した。 グラフィックス・プロセッシング・ユニット(GPU)でのディープラーニングの可能性を証明した。 その後、VGGやResNetのような、より深く複雑なモデルが台頭した。 VGGや ResNetのような のような、より深くより複雑なモデルが台頭し、エラー率をさらに低減し、特定の分類タスクにおいて人間レベルの性能を上回った。
ImageNet データセットであるが、今日、その最も実用的な有用性は次の点にある。 転移学習にある。ディープ・ニューラル・ネットワークを をゼロからトレーニングするには、膨大な を必要とする。その代わりに 開発者は多くの場合、ImageNetすでに「事前訓練」されたモデルを使用する。
ImageNet 、犬の品種から日用品に至るまで、20,000以上の膨大なカテゴリをカバーしているため、その上で学習されたモデルは、以下のような豊富なハイレベル特徴表現を学習する。 は、豊富で高レベルな特徴表現を学習します。これらの学習された特徴は 新しいモデルの強力なバックボーンとして機能します。そして これらの事前学習された重みを微調整することで、開発者は以下のことが可能になります。 特定のカスタムデータセットで高い精度を達成することができます。 を達成することができます。
ImageNet 影響力は、人工知能(AI)を活用するほぼすべての業界に及んでいる。 人工知能(AI)を利用するほぼすべての業界に及んでいる。
開発者は、Ultralytics ライブラリを使用して、ImageNet 上で事前にトレーニングされたモデルに簡単にアクセスすることができます。次の例 をロードする方法を示します。 YOLO11分類モデルをロードする方法を示します、 このモデルはデフォルトでImageNet 重みが付いており、それを使って画像のクラスを予測します。
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
ImageNet COCO(Common Objects in Context)データセットを区別することは重要である。 COCO (Common Objects in Context)データセットと区別することが重要である。
ImageNet モデルに「どのように見るか」を教えるために使われるのに対して、COCO ようなデータセットは、複雑なシーンでどのように物体を見つけるかを教えるために使われる。 を教えるために使われる。多くの場合、モデルのエンコーダは、検出タスクのためにCOCOで訓練される前に、ImageNet 事前に訓練される。 COCO 学習されることが多い。


