半教師あり学習が、ラベル付きデータとラベルなしデータを組み合わせてAIモデルを強化し、ラベル付けコストを削減し、精度を向上させる仕組みをご覧ください。
半教師付き学習(SSL)は、機械学習(ML)における強力なパラダイムである。 機械学習(ML)における強力なパラダイムである。 完全教師あり学習と教師なし学習の 教師なし学習。教師あり 教師あり学習は完全な注釈付きデータセットを必要とし、教師なし学習はラベルなしで動作する。 SSLは、少量のラベル付きデータと、より大量のラベルなしデータを活用することで動作する。多くの実世界では 実世界の多くのシナリオでは、未加工データの入手は比較的安価だが、データのラベル付けプロセスは高価で時間もかかる。 データ・ラベリングのプロセスは高価で時間がかかり、人間の専門知識を必要とする。 人間の専門知識が必要である。SSLはこのボトルネックに対処するため、限られたラベル付き例を学習プロセスのガイドとして使用する。 これにより、モデルはラベル付けされていない膨大なセグメントから構造とパターンを抽出し、モデル全体の精度と汎化を向上させることができる。 モデル全体の精度と汎化を向上させます。
SSLの基本的なメカニズムは、ラベル付けされたデータからラベル付けされていないデータに情報を伝播することである。このプロセスは このプロセスは一般的に、小さなラベル付きデータセットで初期モデルを学習することから始まる。このモデルは、ラベル付けされていないデータ を推論するために使用される。最も信頼できる予測-しばしば擬似ラベルと呼ばれる-は、グランドトゥルースとして扱われる。 として扱われ、モデルはこの拡張データセットで再学習される。この反復サイクルによって ニューラルネットワークは を学習することができる。
SSLで使用される一般的なテクニックには、以下のようなものがある:
半教師付き学習は、データは豊富だが専門家による注釈が乏しい業界において、特に大きな変革をもたらす。 乏しい業界では、半教師付き学習は特に大きな変革をもたらす。
SSLを完全に理解するためには、類似の学習パラダイムと区別することが役に立つ:
半教師付きワークフローを実装するには、しばしば「教師と生徒」のループや反復トレーニングが必要になる。以下は
を使った概念的な例である。 ultralytics Python パッケージは、ラベル付けされていないデータをどのように推論し
Pythonパッケージは、さらなる学習のための擬似ラベルとして機能する予測を生成するために、ラベル付けされていないデータを推論する方法を示す。
from ultralytics import YOLO
# Initialize the YOLO11 model (Teacher)
model = YOLO("yolo11n.pt")
# Train initially on a small, available labeled dataset
model.train(data="coco8.yaml", epochs=10)
# Run inference on a directory of unlabeled images to generate predictions
# These results can be filtered by confidence to create 'pseudo-labels'
results = model.predict(source="./unlabeled_data", save_txt=True, conf=0.8)
# The saved text files from prediction can now be combined with the original
# dataset to retrain a robust 'Student' model.
ディープラーニングフレームワーク PyTorchや TensorFlowは、カスタムSSL ループと損失関数を実装するのに必要なビルディング・ブロックを提供する。モデルの規模が大きくなり、データを大量に消費するようになるにつれて、SSLのようなテクニックは、データ効率を最大化するための標準的なプラクティスになりつつある。 になってきている。
次期Ultralytics Platformは、このようなワークフローを合理化するように設計されています。 生データからモデル展開までの データキュレーションと 自動注釈プロセスを促進することで、チームが生データからモデル展開への移行を管理できるよう支援します。これにより ラベル付けされていないデータを効果的に活用することで、組織は以下のような高性能AIソリューションを展開することができます。 YOLO11のような高性能AIソリューションを、純粋に教師ありの手法に頼るよりも迅速かつ安価に導入することができる。 のような高性能AIソリューションを、より迅速に、より手頃な価格で導入することができる。


