Yolo 深圳
深セン
今すぐ参加
用語集

ImageNet

1,400万枚以上の画像から構成され、AI研究、モデル、アプリケーションの発展に貢献する画期的なデータセット、ImageNetご覧ください。

ImageNet 、視覚的物体認識ソフトウェアの研究に使用するために設計された、大規模で広く引用されている視覚データベースです。 1,400万枚以上の画像が含まれており、どのような物体が写っているのか、また100万枚以上の画像では、物体がどこにあるのかを示すために、手作業で注釈がつけられている。 100万枚以上の画像において、オブジェクトがバウンディングボックスでどこに配置されているかを示すために、手作業で注釈がつけられています。WordNet 階層に従って WordNetの階層構造に従って ImageNet されたImageNet 、画像を特定の概念または 「シセット」に対応付けられ、コンピュータ・ビジョン(CV)モデルの訓練と評価のための基礎的なリソースとなっている。 コンピュータ・ビジョン(CV)モデルの訓練と評価のための基礎的なリソースとなっている。その巨大なスケールと多様性 その膨大なスケールと多様性により、研究者は小規模な実験を超えることができるようになり、事実上、現代のディープラーニング(DL)時代の幕開けとなった。 ディープラーニング(DL)の現代の幕開けとなった。

視覚認識の進化

ImageNet以前は、ディープ・ニューラル・ネットワーク(NN)を訓練するには小さすぎるデータセットに苦労していた。 ニューラルネットワーク(NN)を オーバーフィッティングスタンフォード視覚・学習研究所の研究者によって作成された Stanford Vision and Learning Labの研究者たちによってImageNet されたImageNet 、このデータ不足の問題を解決した。 ImageNetは ImageNet Large Scale Visual Recognition Challenge (ILSVRC)、2010年から2017年まで毎年開催された競技会 2010年から2017年まで毎年開催された。

このコンペティションは、有名な建築家たちの実験場となった。2012年には アレックスネット・アーキテクチャが大差で優勝した。 を使用して 2012年、AlexNetアーキテクチャは、畳み込みニューラルネットワーク(CNN)を使用して、大差で優勝し、GPU上でのディープラーニングの可能性を証明した。 グラフィックス・プロセッシング・ユニット(GPU)でのディープラーニングの可能性を証明した。 その後、VGGやResNetのような、より深く複雑なモデルが台頭した。 VGGや ResNetのような のような、より深くより複雑なモデルが台頭し、エラー率をさらに低減し、特定の分類タスクにおいて人間レベルの性能を上回った。

転移学習と事前トレーニング

ImageNet データセットであるが、今日、その最も実用的な有用性は次の点にある。 転移学習にある。ディープ・ニューラル・ネットワークを をゼロからトレーニングするには、膨大な 必要とする。その代わりに 開発者は多くの場合、ImageNetすでに「事前訓練」されたモデルを使用する。

ImageNet 、犬の品種から日用品に至るまで、20,000以上の膨大なカテゴリをカバーしているため、その上で学習されたモデルは、以下のような豊富なハイレベル特徴表現を学習する。 は、豊富で高レベルな特徴表現を学習します。これらの学習された特徴は 新しいモデルの強力なバックボーンとして機能します。そして これらの事前学習された重みを微調整することで、開発者は以下のことが可能になります。 特定のカスタムデータセットで高い精度を達成することができます。 を達成することができます。

実際のアプリケーション

ImageNet 影響力は、人工知能(AI)を活用するほぼすべての業界に及んでいる。 人工知能(AI)を利用するほぼすべての業界に及んでいる。

  1. 医療診断医療画像解析では 医療画像解析では、ラベル付きデータは 乏しいことが多く、入手にはコストがかかる。研究者は、ImageNet 事前に訓練されたモデルを使用して、一般的な形状やテクスチャを識別する。 その後、X線写真の腫瘍や骨折をdetect するために微調整する。このアプローチは ヘルスケアツールにおける救命AIの開発を加速させる。
  2. スマート小売システム:自動レジシステムは、何千もの商品を識別することに依存している。しかし 何百万ものシリアルの箱の画像を収集するのではなく、エンジニアはImageNet分類子を活用して、基本的な商品の形状とブランドを認識します。 基本的な商品の形状とブランドを認識します。これにより 効率的な 小売業の在庫管理におけるAI

ImageNet 訓練済みモデルの使用

開発者は、Ultralytics ライブラリを使用して、ImageNet 上で事前にトレーニングされたモデルに簡単にアクセスすることができます。次の例 をロードする方法を示します。 YOLO11分類モデルをロードする方法を示します、 このモデルはデフォルトでImageNet 重みが付いており、それを使って画像のクラスを予測します。

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet COCO比較

ImageNet COCO(Common Objects in Context)データセットを区別することは重要である。 COCO (Common Objects in Context)データセットと区別することが重要である。

  • ImageNetは主に 画像分類のベンチマークである。 単一のラベル(例えば「タビー猫」)を画像全体に割り当てることである。注釈は 画像に何が写っているか
  • COCOオブジェクト検出と インスタンス分割の標準的なベンチマークである。このベンチマークに含まれる を含む複雑なアノテーションを提供する。 バウンディングボックスとピクセル単位のマスクによる複雑なアノテーションを提供する。 オブジェクトが配置されている場所に焦点を当てます。

ImageNet モデルに「どのように見るか」を教えるために使われるのに対して、COCO ようなデータセットは、複雑なシーンでどのように物体を見つけるかを教えるために使われる。 を教えるために使われる。多くの場合、モデルのエンコーダは、検出タスクのためにCOCOで訓練される前に、ImageNet 事前に訓練される。 COCO 学習されることが多い。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加