Yolo 深圳
深セン
今すぐ参加
用語集

アクティブラーニング

アクティブラーニングは、ラベル数を抑えつつ精度を高める、費用対効果の高い機械学習手法です。AIトレーニングをどのように変革するかを解説します。

能動学習は 機械学習(ML)における動的アプローチである。 機械学習(ML)における動的アプローチである。標準的な教師あり学習では 標準的な教師あり学習では、モデルは事前にラベル付けされた大規模なデータセットを受動的に与えられる。 冗長な例や有益でない例が含まれる場合、非効率的でコストがかかる。能動学習はこのパラダイムをシフトする。 モデルが対話的に情報源(多くの場合、人間の専門家や「オラクル」)に問い合わせ、特定の曖昧な事例に対するラベルを要求できるようにすることで、このパラダイムを転換する、 曖昧な事例のラベルを要求する。このターゲット戦略は 高い精度を達成するために必要な 精度を高めるために必要な学習データの量を大幅に削減できるため 予算や時間の制約が厳しいプロジェクトに最適です。

アクティブ・ラーニングのサイクル

アクティブ・ラーニングのプロセスは、反復サイクルとして機能する。 ワークフローと表現されることもある。この このサイクルは、モデルの改善に最も貢献するデータのみに人間の労力が集中することを保証する。典型的なワークフローは以下の通りである。 典型的なワークフロー

  1. 初期化:次のようなモデル Ultralytics YOLO11のようなモデルは、最初にラベル付けされた小さな モデルで学習される。
  2. クエリ:モデルはラベル付けされていない大規模なデータプールに対して予測を実行する。クエリ戦略を使用して 信頼度が低い、または予測が不確実なサンプルを 予測が不確実なサンプルを特定します。
  3. 注釈:これらの優先順位の高い "不確かな "サンプルは、ラベリングのために人間のアノテーターに送られる。 ラベリングされる。
  4. 更新: 新たにラベル付けされたサンプルがトレーニングセットに追加され、モデルのトレーニングプロセスが繰り返される。 モデルの学習プロセスが繰り返され、アルゴリズムが改良される。

この方法の有効性は、サンプリング戦略に大きく依存する。不確実性サンプリングは 最も一般的な手法であり、アルゴリズムが決定境界に最も近いインスタンスを選択する。包括的な詳細 これらの戦略に関する包括的な詳細は、様々な アクティブ・ラーニングの文献調査に詳しい。

Python 例:YOLO11不確実性サンプリング

以下のコード・スニペットは、基本的な不確実性サンプリング・ループの実装方法を示しています。これはモデルをロードし を行い、信頼度の低い検出を識別し、手動レビュー用にフラグを立てます。

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on a list or directory of unlabeled images
results = model.predict(["image1.jpg", "image2.jpg"])

# Identify images where the model is uncertain
uncertain_samples = []
for result in results:
    # Check if detections exist and if the maximum confidence is below a threshold
    if result.boxes.conf.numel() > 0 and result.boxes.conf.max() < 0.6:
        uncertain_samples.append(result.path)
        print(f"Flagging {result.path} for manual labeling.")

print(f"Total uncertain images found: {len(uncertain_samples)}")

実際のアプリケーション

能動学習は、次のような領域で特に有用です。 データ・ラベリングが高価であったり、専門的 特に有用である。

  • 医用画像解析:ヘルスケアでは、脳腫瘍の検出のようなタスクのためにラベル付きデータを取得する必要があります。 脳腫瘍の検出のようなタスクのために の時間を必要とする。何千もの日常的なスキャン画像にラベル付けをする代わりに、能動学習システムは専門家のレビューのために稀な異常や曖昧な異常を特定することができる。 は、稀な異常や曖昧な異常を特定し、専門家のレビューを受けることができる。生物医学画像セグメンテーション バイオメディカル画像セグメンテーションの研究により、このアプローチが 診断精度を維持しながら、アノテーションの労力を大幅に削減できることが示されている。
  • 自律走行車:自動運転車は大量のビデオデータを収集する。すべてのフレームにラベルを付けることは現実的ではない。アクティブラーニング は、異常気象やコスチュームを着た歩行者など、現在の物体検出モデルが苦手とする 現在の物体検出モデルでは classifyできます。このような困難なシナリオに優先順位をつけることで NVIDIA知覚システムの安全性と堅牢性を向上させます。 を向上させます。

関連概念との区別

能動学習はラベルのないデータを使うが、他の機械学習パラダイムとは異なる:

  • 半教師付き学習:この方法では、ラベル付けされたデータとラベル付けされていないデータの両方を学習時に使用するが、通常は受動的に行う。多くの場合 能動学習が明示的に新しい情報を問い合わせるのに対して、ラベルを伝播するためにデータ分布に関する仮定に依存することが多い。 能動学習は明示的に新しい情報を問い合わせる。
  • 自己教師あり学習:このアプローチでは、モデルはデータ構造から独自の監視信号を作成する(例えば、画像の欠落部分の予測など)。 画像の欠落部分の予測など)。ラベルのない部分のラベルを生成するための人間によるインタラクションを必要としない。 Google AIのような研究所の主要な研究分野である。
  • 強化学習:これは、エージェントが環境から報酬やペナルティを受け取ることによって意思決定を行うことを学習することを含む。アクティブ学習とは異なり 強化学習は、一連の行動を最適化することに焦点を当てる。 を最適化することに焦点を当てる。

MLOpsへの統合

アクティブ・ラーニングを実装するには、堅牢な 機械学習オペレーション(MLOps) パイプラインが必要です。データ データのバージョニングと管理をサポートするツールは、どのサンプルが照会されたかを追跡するために不可欠です。汎用ライブラリ のような scikit-learn のような汎用のライブラリはある程度の有用性を提供しますが、コンピュータ・ビジョンのワークフローでは、選択された画像を視覚化し注釈を付けるために 選択された画像を効果的に視覚化し、注釈を付けるために を効果的に行うことができる。上級ユーザーは Ultralytics GitHubリポジトリを探検して、予測出力 をこれらのデータ・キュレーション・ループに供給するためにどのように構造化できるかを見ることができる。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加