コンピュータビジョンプロジェクトにおけるデータセット管理を改善するために、Ultralytics Platformをどのように活用できるかを探ります。データセットを容易に追跡、比較、改善できます。
コンピュータビジョンプロジェクトにおけるデータセット管理を改善するために、Ultralytics Platformをどのように活用できるかを探ります。データセットを容易に追跡、比較、改善できます。
Vision AI、すなわちコンピュータービジョンは、初期の段階から大きく進化し、実験的な研究から実世界アプリケーションを支える主要な技術へと発展しました。今日、AI愛好家は、アクセスしやすいツールやフレームワークを使用して、物体detectやインスタンスsegmentのようなタスク向けの強力なモデルを構築できます。
しかし、これらのアプリケーションが実験段階から本番環境へ移行するにつれて、データセット管理は依然として重要であり、しばしば見過ごされがちな課題です。コンピュータビジョンデータセットが規模と複雑さを増すにつれて、チームは一貫したアノテーションの維持、バージョン間の変更追跡、および全体的なデータ品質の確保に苦慮することがよくあります。
最先端のモデルでさえ、トレーニングに使用されたデータが不完全、不均衡、または不適切に管理されている場合、実環境では性能が低下する可能性があります。開発時の性能と実環境での信頼性との間のこの広がるギャップが、データセット管理に対するより構造化されたアプローチが必要とされる理由です。
もう一つの一般的な制限は、データ収集、アノテーション、トレーニングがしばしば別々のツールを使用して処理されることです。分断されたワークフローは、データセットの効率的な管理を困難にし、不整合のリスクを高め、イテレーションを遅らせます。
データセット管理や断片化されたワークフローといったビジョンAIのボトルネックを解決するため、最近Ultralytics Platformをリリースしました。これは、データセット管理、アノテーション、トレーニング、デプロイ、モニタリングを単一の統合されたワークフローに統合するエンドツーエンドのワークスペースです。
コンピュータービジョンライフサイクルの各段階を接続することで、データセットの変更を追跡し、バージョン間でパフォーマンスを比較し、より良い結果のためにデータを継続的に洗練することが容易になります。

本記事では、Ultralytics Platformがデータセットをtrack、比較、改善し、より信頼性の高いコンピュータービジョンモデルを構築するのにどのように役立つかを詳しく見ていきます。早速始めましょう!
A コンピュータービジョンモデルの性能は、学習に使用されるデータと密接に関連しています。予測がどれだけ正確であるかを示すモデルの精度は、アルゴリズムだけでなく、データセットが実世界の条件をどれだけ適切に表現しているかに依存します。
簡単に言えば、モデルはデータから直接パターンを学習するため、データセット内のギャップ、バイアス、または不整合が予測に影響を与える可能性があります。言い換えれば、品質の低いデータ、不正確なアノテーション、または画像における現実世界の多様性(異なる照明条件、オブジェクトの角度、背景、オクルージョンのレベルなど)のカバー範囲が限定的であることは、モデルアーキテクチャ自体が強力であっても、精度を大幅に低下させる可能性があります。
これは、モデルのファインチューニングを行う際にも当てはまります。事前トレーニングされたモデルが、特定のユースケースや環境によりよく適応させるために、新しいデータや更新されたデータでさらにトレーニングされる場合です。モデルの精度はデータに大きく依存するため、そのデータを適切に管理することが不可欠になります。
データセット管理には、データが正確で関連性の高い状態を保つために、データの整理、ラベリング、および継続的な更新が含まれます。これにより、特に新しいデータでモデルを再トレーニングしたりファインチューニングしたりする際に、時間の経過とともにパフォーマンスを向上させやすくなります。
セキュリティ監視システムのようなコンピュータービジョンのユースケースは、適切なデータ管理がいかに重要であるかを示す好例です。これらのシステムは、異なる照明環境、カメラアングル、混雑度、部分的なオクルージョンなど、さまざまな現実世界の条件下で確実に機能する必要があります。
学習データがこれらのバリエーションをカバーしていない場合や、異なるシーンや条件でのオブジェクトの出現方法に多様性が欠けている場合、モデルはオブジェクトを正確にdetectするのに苦労する可能性があります。例えば、明るく整理されたシーンで主に学習されたモデルは、低照度環境や混雑した設定では性能が低下する可能性があります。セキュリティシステムでは、これによりイベントの見逃しや誤検知につながる可能性があります。
これを避けるためには、クリーンで正確にラベル付けされているだけでなく、バランスが取れており、継続的に更新されているデータセットを維持することが重要です。これは、データ内のギャップを特定し、状況の変化に応じて新しい例を追加し、異なるクラスと環境が均等に表現されていることを確認することを意味します。
より完全で構造化されたデータセットがあれば、モデルは現実世界の多様性に対応しやすくなり、より信頼性の高い予測を生成できます。
では、データセット管理とは具体的にどのようなものなのでしょうか?これは、モデル開発プロセス全体でデータを効果的に使用できるように、データの整理、ラベリング、および維持を伴います。
例えば、データの整理には、データセットの構造化と、それをトレーニングセット、検証セット、テストセットに分割することが含まれます。トレーニングセットはモデルを学習させるために使用され、検証セットは開発中の性能を監視し、調整をガイドするために使用され、テストセットは、最終モデルが完全に未知のデータに対してどの程度良好に機能するかを評価するために使用されます。
一方、ラベリングとは、クラスラベル、バウンディングボックス、またはsegmentationマスクなどの詳細を画像にアノテーションすることです。モデルはこれらのアノテーションから学習するため、意味のあるパターンを学習し、信頼性の高い予測を行うためには、精度と一貫性が不可欠です。
これに加えて、データセットの維持には、時間の経過とともにデータをレビューし、更新することが含まれます。これには、アノテーションエラーの修正、低品質または重複データの削除、不足しているケースや変化する条件をカバーするための新しい例の追加などが含まれます。
より広範には、データセット管理は継続的なプロセスです。モデルが評価され、新しいデータが収集されるにつれて、データセットは、現実世界の条件とエッジケースを反映するように更新する必要があります。これらの更新をtrackし、異なるバージョンを比較することは、チームがパフォーマンスを向上させている要因と、さらなる変更が必要な箇所を理解するのに役立ちます。
Ultralytics Platformは、データ準備からエクスポートまですべてをカバーする、単一の環境内でデータセットを管理するための構造化されたワークフローを提供します。個人開発者とチームの両方をサポートするように設計されており、単独で作業する場合でも、プロジェクト間で共同作業する場合でも、データセットを一貫して管理しやすくなります。
各ステージは、モデル開発ライフサイクル全体でデータセットがどのように整理され、処理され、使用されるかを簡素化するように設計されています。これらのステップを1か所にまとめることで、プラットフォームは断片化を減らし、ワークフロー全体で一貫性を維持することをより簡単にします。
次に、関係する主要な手順と、プラットフォームがそれらのそれぞれをどのようにサポートするかを見ていきましょう。
プラットフォームでのデータセットの利用開始は柔軟で、データを持ち込んだり再利用したりする方法が複数あります。独自のデータをアップロードすることも、プラットフォームを通じて利用可能な公開データセットを使用することでより迅速に開始することもできます。コミュニティによって共有されている既存のデータセットをクローンして、それらを基盤として構築することもできます。
このプラットフォームのコミュニティ機能により、既存の作業を簡単に探索し、再利用できます。数百万の画像とアノテーションを含む、他のユーザーが作成したデータセットにアクセスできるため、すべてを自分で収集してラベル付けすることなく、迅速に作業を開始できます。データセットをクローンすると、ワークスペースにコピーが作成され、オリジナルを保持しながら修正および拡張することができます。
アップロードに関して、プラットフォームは個々の画像、ビデオ、およびZIP、TAR、GZファイルなどのデータセットアーカイブをサポートしています。また、YOLOやCOCOのような広く使用されているデータセット形式もサポートしており、追加の変換なしに既存のデータセットとアノテーションを簡単にインポートできます。これに加えて、プラットフォームからエクスポートされたNDJSONファイルを使用してデータセットをアップロードできるため、プロジェクト間でデータセットをシームレスに再作成または再利用できます。
データがアップロードされると、プラットフォームは構造化されたパイプラインを通じてデータを処理します。これには、ファイル形式とサイズの検証、必要に応じた画像のリサイズ、アノテーションの解析、データセット統計の生成が含まれます。
例えば、ビデオはフレームに変換され、トレーニングに使用できるように準備されます。一方、画像は最適化され、より簡単な閲覧と分析のために準備されます。処理後、データセットはプラットフォーム内でアノテーション、分析、モデルトレーニングに使用できるようになります。
アップロードされると、データセットはプラットフォーム内で直接レビューおよびアノテーションできます。プラットフォームには、物体detect、インスタンスsegmentation、姿勢推定、oriented bounding box (obb) detect、画像分類など、さまざまなコンピュータビジョンタスクに対応する組み込みの画像アノテーションツールが含まれています。

アノテーションは、これらのツールを使用して手動で作成することも、SAMを活用したスマートアノテーションのようなAI支援機能で加速することもできます。SAMを使用すると、画像と対話することでマスク、バウンディングボックス、または指向性ボックスを生成でき、精度を維持しながらラベリングプロセスを高速化できます。
データの準備とアノテーションに加えて、信頼性の高いコンピュータービジョンモデルを構築するには、データセットの品質を理解することが不可欠です。クラス分布、アノテーション品質、データセット分割、および異なる条件下でデータがどのように表現されるかといった要因に対する明確な可視性なしでは、モデルパフォーマンスに影響を与える問題を発見するのが困難になる可能性があります。
Ultralytics Platformには、データセットをより効果的に分析するための組み込み機能が含まれています。これらのインサイトは、「画像」、「クラス」、「チャート」などのタブを通じて、データセットインターフェース内で直接利用できます。
チャートタブでは、分割分布(訓練、検証、テスト)、クラス頻度、画像内でオブジェクトが出現する場所を示すアノテーションヒートマップなど、データセットレベルの統計を表示できます。
クラスタブでは、クラスごとのアノテーション数の内訳が提供され、クラスの不均衡を容易に発見できます。一方、画像タブでは、寸法、アノテーション数、個々の画像におけるラベルの分布など、画像レベルの詳細が表示されます。
これらの洞察により、クラスの不均衡、シナリオの欠落、不均一なデータ分布などの問題を特定しやすくなります。例えば、特定のクラスの例が非常に少ないことや、ほとんどのアノテーションが画像の特定の領域に集中していることに気づくかもしれません。
データ分析を超えて、このプラットフォームはデータセットのキュレーションと拡張をサポートしています。これは、問題のあるデータを修正または削除し、既存のデータのバリエーションを作成してモデルの性能を向上させることで、データセットを洗練することを意味します。これらの改善は、アノテーションの更新、新しいデータの追加、または分析からの洞察に基づいてデータセットの分割を再編成することにより、プラットフォーム内で直接行うことができます。
データセットが準備され、検証されたら、さまざまな環境で使用するためにエクスポートできます。これにより、コンピュータービジョンデータを、ローカルでのモデルトレーニング、クラウド、または他のツールやワークフローなど、好みの場所で柔軟に使用できます。
Ultralytics Platformは、YOLO、COCO、NDJSONを含む複数のエクスポート形式をサポートしており、データセットをさまざまなトレーニングワークフローやツールに簡単に統合できます。

データセットをエクスポートすると、画像、アノテーション、構造を含む、特定の時点でのデータの固定スナップショットが作成されます。これは、新しいデータが追加されたり、アノテーションが更新されたり、分割が調整されたりすることでデータセットが頻繁に変更されるため有用です。スナップショットをエクスポートすることで、特定のトレーニング実行に使用されたデータセットの正確なバージョンを保持できます。
これにより、同じデータセットアップでモデルを再度トレーニングし、異なるデータセットバージョン間でパフォーマンスを比較できるため、後で結果を再現しやすくなります。例えば、何が変更されたかを推測するのではなく、新しい画像を追加したり、アノテーションを修正したりすることが実際にモデルの精度を向上させるかどうかを評価できます。
エクスポートは非同期で処理され、準備が整うと、データセットはダウンロードされ、ローカル、クラウド、またはオフラインのトレーニング環境で使用できます。
機械学習および深層学習のワークフローでは、実世界データが訓練中に使用されたデータと異なることが多いため、デプロイ後もデータセット管理が継続されます。
モデルが新しい入力に遭遇するにつれて、低照度環境、異なるカメラアングル、オクルージョン、混雑したシーンなどの欠落した条件や、アノテーションエラーといったデータセットのギャップがより顕著になり、時間の経過とともにデータを洗練させる必要が生じます。
データセットを改善する方法はいくつかあります。低照度環境、異なるカメラアングル、オクルージョン、混雑したシーンなど、不足している条件をカバーするために新しい画像や動画を追加することで、データ内の死角を減らすのに役立ちます。
同時に、正しくラベル付けされたオブジェクトや正確なバウンディングボックスまたはマスクなど、アノテーションが正確で一貫していることを保証することは、モデルがより信頼性の高いパターンを学習するのに役立ちます。
これは通常、シンプルなループに従います。モデルをトレーニングし、結果を評価し、エラーを特定し、データセットを改善し、再トレーニングします。各ステップは、不正確なアノテーション、欠落データ、または過小評価されているケースなどの問題を浮き彫りにするのに役立ちます。
例えば、店舗内の商品をdetectするために使用されるリアルタイムの小売棚監視システムに取り組んでいるとします。データセットの初期バージョンには、特定の製品タイプ、照明条件、または混雑した棚の配置が含まれていない場合があります。評価中に、モデルがこれらの状況でアイテムをdetectするのに苦労することに気づくかもしれません。
パフォーマンスを向上させるには、これらの不足しているシナリオをカバーする新しい画像を収集し、必要に応じてアノテーションを更新できます。時間とともにこのプロセスを繰り返すことで、モデルは実世界の状況でより正確で信頼性の高いものになります。
Ultralytics Platformは、データセットの更新をトレーニングおよび評価と連携させることで、このワークフローをサポートします。組み込みの実験追跡とパフォーマンスメトリクスにより、進捗状況の監視とデータセットの継続的な改善が容易になります。
モデル開発プロセスの一部として、データセットが時間とともにどのように進化するかについて簡単に説明しました。新しいデータが追加され、アノテーションが洗練され、クラスが更新されるにつれて、これらの変更を追跡することは、データ品質を維持し、一貫したモデルパフォーマンスを確保するための鍵となります。
データセットの追跡とバージョン管理をサポートするUltralytics Platformの主要な機能をいくつかご紹介します。

Ultralytics Platformは、AIモデル開発のさまざまな段階を単一のパイプラインに接続します。これにより、生データから実稼働対応のビジョンAIアプリケーションへの移行プロセスが効率化されます。
データセットが準備され、アノテーションされると、プラットフォーム内で直接、Ultralytics YOLO26などのコンピュータービジョンモデルのトレーニングに使用できます。トレーニング中は、組み込みのダッシュボードを使用して、パフォーマンスメトリクスを監視し、実験を追跡し、モデルの学習状況を評価できます。

トレーニング後、モデルはデプロイ前に予測を評価し、改善点を見つけるためにブラウザで直接新しい画像に対してテストできます。モデルが良好に機能する場合、本番環境にデプロイできます。
このプラットフォームは、モデルを複数の形式にエクスポートしたり、推論サービスや専用エンドポイントを通じてデプロイしたりすることをサポートしており、さまざまな環境で実行できるようにします。
デプロイされると、組み込みの監視ツールは、使用状況やモデルの動作に関連するメトリクスを含め、時間の経過とともにシステムパフォーマンスを追跡するのに役立ちます。これにより、実際のアプリケーションでビジョンAIシステムを維持および改善することがより簡単になります。
Ultralytics Platformを使用してデータセットを管理する際に留意すべき主要な要因をいくつかご紹介します。
Ultralytics Platformについて詳しく知るには、公式のUltralyticsドキュメントをご覧ください。
コンピュータービジョンプロジェクトが規模を拡大するにつれて、データセットを効果的に管理することは、モデル開発と同じくらい重要になります。データセット管理への構造化されたアプローチは、データ品質の向上、ワークフローの合理化、および時間の経過とともにモデル性能の向上をサポートします。
Ultralytics Platformは、データセット管理、トレーニング、デプロイメントを単一のワークフローに統合することで、このプロセスを簡素化します。データセット管理に構造化されたアプローチを採用することで、チームは複雑さを軽減し、効率を向上させ、よりスケーラブルで信頼性の高いコンピュータビジョンシステムを構築できます。
成長中のコミュニティに参加し、AIリソースについては、私たちのGitHubリポジトリをご覧ください。今すぐVision AIで構築を始めるには、私たちのライセンスオプションをご確認ください。ソリューションページをご覧になり、農業AIが農業をどのように変革しているか、そしてヘルスケアにおけるVision AIが未来をどのように形作っているかをご覧ください。

未来の機械学習で、新たな一歩を踏み出しましょう。