Yolo 深圳
深セン
今すぐ参加
用語集

データセントリックAI

データ中心AIを発見しましょう。これは、モデルのパフォーマンスを向上させるためにデータセットの品質を改善するアプローチです。より優れたモデルだけでなく、より優れたデータが堅牢なAIの鍵となる理由を学びましょう。

データ中心AIは、人工知能(AI)システムを開発するための戦略的アプローチである。 人工知能(AI)システム を開発するための戦略的アプローチであり、モデル・アーキテクチャを反復することよりも、学習データの質を向上させることに主眼を置いている。 従来のワークフローでは、開発者はデータセットを固定入力として扱い、ハイパーパラメータの微調整や複雑な設計に多大な労力を費やしていました。 ハイパーパラメータを調整したり、複雑な ニューラルネットワーク(NN)構造の設計に多大な労力を費やす。対照的に のアーキテクチャのようなモデルコードを扱う。 Ultralytics YOLO11-を比較的静的なベースラインとして扱う、 のようなモデルコードを比較的静的なベースラインとして扱う。 パフォーマンスを向上させる。

核となる哲学量より質

機械学習(ML)システムの有効性は 機械学習(ML)システムは基本的に ガベージ・イン、ガベージ・アウト "の原則によって制限される。どんなに高度なアルゴリズムでも ノイズの多い、あるいはラベル付けが正しくない入力から効果的なパターンを学習することはできない。データ中心AIは、多くの実用的なアプリケーションでは、学習データが最も重要であるとしている。 多くの実用的なアプリケーションでは、学習データが 成功のための最も重要な変数である。このアプローチでは、ノイズの多い膨大なデータセットよりも、少量で質の高いデータセットの方が、より良い結果が得られることが多いことを強調する。 膨大でノイズの多いデータセットよりも

アンドリュー・ンなどのこの哲学の支持者は、AIのコミュニティがモデル中心のイノベーションに偏っていると主張している。 AIコミュニティの焦点は、モデル中心のイノベーションに偏っている。ロバストなシステムを構築するためには エンジニアは能動的な学習プロセスに取り組まなければならない そこでは、故障モードを繰り返し特定し、データセットを改良することでそれを修正する。これには、正確な データのラベリング、重複の除去、モデルが分類困難と判断したエッジケースの処理などである。 エッジケースの処理などである。

主なテクニックと実施方法

データ中心戦略の実施には、データセットの情報密度と一貫性を最大化するためのいくつかの技術的プロセスが含まれる。 情報密度と一貫性を最大化するために設計された、いくつかの技術的プロセスが含まれる。

  • 体系的なデータクリーニング:これは、以下のようなアノテーションのエラーを検出し、修正することである。 オブジェクトを厳密に包含していないバウンディングボックス オブジェクトをしっかりと包含していないバウンディングボックスを特定したり、クラスのミスマッチエラーを修正したりします。
  • データの拡張:開発者は 人工的にデータセットの多様性を拡大する。 データセットの多様性を拡大する。回転、スケーリング、色調整などの変換を適用することで、モデルは未知の環境に対してより良く汎化することを学習する。 モデルは未知の環境に対してより良く汎化することを学習する。
  • 合成データの生成:実世界のデータが乏しい場合、チームはデータセットのギャップを埋めるために合成データ 合成データを生成してデータセットのギャップを埋めることができる、 希少なクラスが適切に表現されるようにする。
  • エラー分析:精度のような総合的な指標だけを見るのではなく エンジニアは、精度のような総合的な指標だけを見るのではなく モデルを分析し、特定の弱点に対処するためのデータを収集します。

以下のPython コードは、トレーニング中に ultralytics パッケージで提供される。

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

実際のアプリケーション

データ中心のアプローチを採用することは、以下のような産業において非常に重要である。 コンピュータ・ビジョン(CV)の精度が データ中心のアプローチを採用することが重要です。

  1. 精密農業:農業におけるAI 農業AIでは 健全な作物と初期段階の病害を見分けるには、微妙な視覚的手がかりに頼ることが多い。データ中心のチームは 質の高い 高品質のコンピューター・ビジョン・データセット 様々な照明条件や成長段階における病害の例を具体的に含む、高品質のコンピューター・ビジョン・データセットのキュレーションに焦点を当てるだろう。 モデルが無関係な背景の特徴を病気のクラスに関連付けることを学習しないようにするためだ。
  2. 工業検査製造業における 製造業におけるAIでは、欠陥は 万個に1回しか発生しないかもしれない。標準的なモデルのトレーニングでは、このような稀な事象は無視される可能性がある。そこで 異常検出ストラテジーを採用し このような特定の欠陥の画像をより多く調達または合成することで、エンジニアはシステムが品質管理基準に必要な高い想起率を達成できるようにする。 品質管理標準に要求される高い再現率を達成することを保証します。 ISOのような組織によって定義されています。

関連概念の区別

データ中心AIを理解するには、機械学習のエコシステムにおける類似の用語と区別する必要がある。

  • モデル中心AI:これは逆アプローチで、データセットは一定に保たれる。 ハイパーパラメーターのチューニングやアーキテクチャ ハイパーパラメータのチューニングやアーキテクチャ 変更によって改善を図る。IEEE Xploreに掲載されている研究論文では、最先端の限界を押し広げるために必要なアプローチである。 IEEE Xploreに掲載されている研究論文において、最先端の限界を押し広げるためには必要だが、実運用においては、データのクリーニングに比べ、収穫が少なくなることが多い。 データをクリーニングすることに比べれば、本番では収穫が少なくなることが多い。
  • ビッグデータ: ビッグデータとは主に次のようなものを指す。 情報の量、速度、多様性を指す。データ中心AIは必ずしも「ビッグ」データを必要としない; むしろ「賢い」データが必要なのだ。小規模で完璧にラベル付けされたデータセットは、多くの場合、大規模でノイズの多いデータセットよりも優れている。 上回ることが多い。
  • 探索的データ分析(EDA): データの可視化とEDAは、データ中心のワークフローの中で データ中心のワークフロー内のステップである。EDAは不整合を特定するのに役立つが、データ中心AIは以下のものを包含する。 推論エンジンを改善するためにそれらの問題を修正するエンジニアリング・ライフサイクル全体を包含する。 推論エンジンを改善する。
  • MLOps: 機械学習オペレーション(MLOps) は、AI生産のライフサイクルを管理するためのインフラとパイプラインを提供します。データ中心AIとは MLOpsパイプラインに適用される手法で、パイプラインを流れるデータが信頼性の高いモデルを作成することを保証する。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加