データ中心AIを発見しましょう。これは、モデルのパフォーマンスを向上させるためにデータセットの品質を改善するアプローチです。より優れたモデルだけでなく、より優れたデータが堅牢なAIの鍵となる理由を学びましょう。
データ中心AIは、人工知能(AI)システムを開発するための戦略的アプローチである。 人工知能(AI)システム を開発するための戦略的アプローチであり、モデル・アーキテクチャを反復することよりも、学習データの質を向上させることに主眼を置いている。 従来のワークフローでは、開発者はデータセットを固定入力として扱い、ハイパーパラメータの微調整や複雑な設計に多大な労力を費やしていました。 ハイパーパラメータを調整したり、複雑な ニューラルネットワーク(NN)構造の設計に多大な労力を費やす。対照的に のアーキテクチャのようなモデルコードを扱う。 Ultralytics YOLO11-を比較的静的なベースラインとして扱う、 のようなモデルコードを比較的静的なベースラインとして扱う。 パフォーマンスを向上させる。
機械学習(ML)システムの有効性は 機械学習(ML)システムは基本的に ガベージ・イン、ガベージ・アウト "の原則によって制限される。どんなに高度なアルゴリズムでも ノイズの多い、あるいはラベル付けが正しくない入力から効果的なパターンを学習することはできない。データ中心AIは、多くの実用的なアプリケーションでは、学習データが最も重要であるとしている。 多くの実用的なアプリケーションでは、学習データが 成功のための最も重要な変数である。このアプローチでは、ノイズの多い膨大なデータセットよりも、少量で質の高いデータセットの方が、より良い結果が得られることが多いことを強調する。 膨大でノイズの多いデータセットよりも
アンドリュー・ンなどのこの哲学の支持者は、AIのコミュニティがモデル中心のイノベーションに偏っていると主張している。 AIコミュニティの焦点は、モデル中心のイノベーションに偏っている。ロバストなシステムを構築するためには エンジニアは能動的な学習プロセスに取り組まなければならない そこでは、故障モードを繰り返し特定し、データセットを改良することでそれを修正する。これには、正確な データのラベリング、重複の除去、モデルが分類困難と判断したエッジケースの処理などである。 エッジケースの処理などである。
データ中心戦略の実施には、データセットの情報密度と一貫性を最大化するためのいくつかの技術的プロセスが含まれる。 情報密度と一貫性を最大化するために設計された、いくつかの技術的プロセスが含まれる。
以下のPython コードは、トレーニング中に
ultralytics パッケージで提供される。
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
データ中心のアプローチを採用することは、以下のような産業において非常に重要である。 コンピュータ・ビジョン(CV)の精度が データ中心のアプローチを採用することが重要です。
データ中心AIを理解するには、機械学習のエコシステムにおける類似の用語と区別する必要がある。