Ultralyticsプラットフォーム

Ultralytics Platformを活用したコンピュータビジョンにおけるスマートデータセット管理

コンピュータビジョンプロジェクトのデータセット管理を改善するために、Ultralytics Platformを活用する方法を探ります。データセットの追跡、比較、改善を容易に行えます。

ABAbirami Vina6 min readMarch 31, 2026

Ultralytics Platformを活用したコンピュータビジョンにおけるスマートデータセット管理

ビジョンAI、あるいはコンピュータビジョンは、初期の実験的な研究段階から発展し、実世界のアプリケーションを支える重要な技術へと大きく進歩しました。今日、AI愛好家は、アクセスしやすいツールやフレームワークを使用して、物体検出やインスタンスセグメンテーションといったタスクのための強力なモデルを構築できます。

しかし、こうしたアプリケーションを実験から本番環境へ移行させる際、データセット管理は依然として極めて重要であり、見過ごされがちな課題です。コンピュータビジョン用データセットの規模が拡大し複雑さが増す中で、チームは一貫したアノテーションの維持、バージョン間での変更点の追跡、そして全体的なデータ品質の確保に苦労することが少なくありません。

学習データが不完全であったり、偏っていたり、あるいは管理が不十分であったりすると、最先端のモデルであっても実環境では十分な性能を発揮できない可能性があります。開発時の性能と実環境での信頼性の間に生じるこのギャップこそが、データセット管理に対するより構造化されたアプローチが必要とされる理由です。

もう一つの一般的な制約は、データ収集、アノテーション、学習が、多くの場合、個別のツールで処理されていることです。ワークフローが断片化していると、データセットを効率的に管理することが困難になり、不整合のリスクが高まり、反復的な改善のスピードも低下します。

データセット管理や断片化したワークフローといったビジョンAIのボトルネックを解消するために、私たちはUltralytics Platformを立ち上げました。これは、データセット管理、アノテーション、学習、デプロイ、監視を一つの統合されたワークフローにまとめるエンドツーエンドのワークスペースです。

コンピュータビジョンのライフサイクルの各ステージを接続することで、データセットの変更の追跡、バージョン間でのパフォーマンスの比較、そしてより良い結果を得るための継続的なデータ改善が容易になります。

Ultralytics Platformでデータセットの画像を表示

図1：Ultralytics Platform 内でデータセットの画像を表示する例 (ソース)

この記事では、より信頼性の高いコンピュータビジョンモデルを構築するために、Ultralytics Platform を活用してどのようにデータセットの追跡、比較、改善を行うかについて詳しく解説します。それでは始めましょう！

Link to this sectionコンピュータビジョンにおけるデータセット管理の重要性#

コンピュータビジョンモデルの性能は、その学習元となるデータと密接に関連しています。モデルの精度、つまり予測がどれだけ正確であるかは、アルゴリズムだけでなく、データセットが実環境の状況をどれほど適切に反映しているかに依存します。

端的に言えば、モデルはデータから直接パターンを学習するため、データセット内の欠落、バイアス、不整合はすべて、モデルの予測方法に影響を与えます。言い換えれば、データの品質が低い、アノテーションが不正確である、あるいは照明条件、物体の角度、背景、遮蔽のレベルなど、画像内の多様な実環境条件を十分にカバーできていない場合、モデル自体のアーキテクチャが強力であっても、精度が大幅に低下する可能性があります。

これは、学習済みモデルを新しいデータや更新されたデータで再学習させ、特定のユースケースや環境に適応させる「ファインチューニング」を行う場合にも当てはまります。モデルの精度はデータに大きく依存するため、データを適切に管理することは不可欠です。

データセット管理には、データの正確性と関連性を保つための整理、ラベル付け、継続的な更新が含まれます。これにより、特に新しいデータでモデルを再学習やファインチューニングする際に、時間の経過とともにパフォーマンスを向上させることが容易になります。

Link to this sectionデータ品質が実世界の信頼性に与える影響#

セキュリティ監視システムのようなコンピュータビジョンのユースケースは、なぜ適切なデータ管理が不可欠なのかを示す好例です。こうしたシステムは、異なる照明環境、カメラアングル、混雑レベル、部分的な遮蔽など、さまざまな実環境の条件下で確実に動作する必要があります。

もし学習データがこうした変化を網羅していなかったり、異なるシーンや条件での物体の見え方に多様性が欠けていたりすると、モデルは物体を正確に検出するのに苦労する可能性があります。例えば、明るく整理されたシーンだけで学習したモデルは、低照度環境や混雑した設定では性能が低下するかもしれません。セキュリティシステムの場合、これは見逃しや誤警報につながる可能性があります。

これを避けるためには、データセットをクリーンで正確なラベル付きにするだけでなく、バランスを整え、継続的に更新し続けることが重要です。つまり、データのギャップを特定し、状況の変化に応じて新しいサンプルを追加し、さまざまなクラスや環境が均等に表現されるようにする必要があります。

より完全で構造化されたデータセットがあれば、モデルは実環境の変動に対応し、より信頼性の高い予測を行う準備が整います。

Link to this sectionデータセット管理の重要な側面#

では、データセット管理とは実際にはどのようなものでしょうか。それは、モデル開発プロセス全体を通して効果的にデータが使用できるように、データを整理、ラベル付け、維持することです。

例えば、データの整理には、データセットを構造化し、学習用（training）、検証用（validation）、テスト用（test）のセットに分割することが含まれます。学習セットはモデルの学習に、検証セットは開発中のパフォーマンス監視や調整のガイドに、そしてテストセットは未知のデータに対して最終的なモデルがどの程度機能するかを評価するために使用されます。

一方、ラベル付けには、クラスラベル、BBox、セグメンテーションマスクなどの詳細情報を画像にアノテーションすることが含まれます。モデルはこれらのアノテーションから学習するため、正確性と一貫性は、モデルが有意義なパターンを学習し、信頼性の高い予測を行うために極めて重要です。

これに加え、データセットの維持には、時間をかけてデータを見直し、更新していくプロセスが含まれます。これには、アノテーションエラーの修正、低品質データや重複データの削除、不足しているケースや変化する状況をカバーするための新しいサンプルの追加などが含まれます。

より広範に見ると、データセット管理は継続的なプロセスです。モデルが評価され、新しいデータが収集されるにつれて、データセットも実世界の状況やエッジケースを反映させるように更新する必要があります。これらの更新を追跡し、異なるバージョンを比較することは、チームが何がパフォーマンスを向上させ、どこにさらなる変更が必要かを理解する助けとなります。

Link to this sectionUltralytics Platform によるデータセット管理#

Ultralytics Platform は、データ準備からエクスポートまでをカバーする、単一環境内でのデータセット管理のための構造化されたワークフローを提供します。個人開発者とチームの両方をサポートするように設計されており、個人で作業する場合でも、プロジェクト全体で共同作業を行う場合でも、一貫したデータセット管理を容易にします。

各ステージは、モデル開発のライフサイクル全体を通じてデータセットがどのように整理、処理、使用されるかを簡素化するように設計されています。これらのステップを一箇所に集約することで、プラットフォームは断片化を減らし、ワークフロー全体で一貫性を維持することをより容易にします。

次に、関与する重要なステップと、プラットフォームがそれぞれのステップをどのようにサポートしているかを見ていきましょう。

Link to this sectionUltralytics Platform へのデータセットのアップロード#

プラットフォームでのデータセットの利用開始は柔軟で、データを取り込んだり再利用したりする方法は複数あります。独自のデータをアップロードしたり、プラットフォーム経由で利用可能なパブリックデータセットを使用して素早く開始したりできます。また、コミュニティによって共有されている既存のデータセットをクローンし、それをベースに構築することも可能です。

プラットフォームのコミュニティ機能により、既存の成果を簡単に探索・再利用できます。何百万もの画像やアノテーションを含む、他のユーザーによって作成されたデータセットにアクセスできるため、すべてを自分で収集・ラベル付けすることなく迅速に開始できます。データセットをクローンすると、ワークスペース内にコピーが作成され、オリジナルを保持したまま修正や拡張が可能になります。

アップロードについては、個々の画像、動画、および ZIP、TAR、GZ ファイルなどのデータセットアーカイブをサポートしています。また、YOLO や COCO といった広く利用されているデータセット形式もサポートしており、追加の変換なしで既存のデータセットやアノテーションを容易にインポートできます。これに加え、プラットフォームからエクスポートした NDJSON ファイルを使用してデータセットをアップロードできるため、プロジェクト間でのデータセットの再作成や再利用がシームレスに行えます。

データがアップロードされると、プラットフォームは構造化されたパイプラインを通じてデータを処理します。これには、ファイル形式とサイズの検証、必要に応じた画像のリサイズ、アノテーションの解析、およびデータセット統計の生成が含まれます。

例えば、動画は学習に使用できるようにフレームに変換され、画像はより容易な閲覧や分析のために最適化・準備されます。処理が完了すると、データセットはプラットフォーム内でのアノテーション、分析、モデル学習に使用できるようになります。

Link to this sectionUltralytics Platform でのデータアノテーション#

アップロードされたデータセットは、プラットフォーム内で直接確認およびアノテーションを行うことができます。プラットフォームには、物体検出、インスタンスセグメンテーション、姿勢推定、回転BBox（OBB）検出、画像分類といった、幅広いコンピュータビジョンのタスクに対応した画像アノテーションツールが組み込まれています。

データラベリングにUltralytics Platformを使用

図2：データラベル付けのための Ultralytics Platform の使用 (ソース)

アノテーションはこれらのツールを使用して手動で作成することも、SAM を活用したスマートアノテーションのようなAI支援機能を使用して加速させることもできます。SAM を使用すると、画像に対話的に働きかけることでマスク、BBox、または回転ボックスを生成でき、正確性を維持しながらラベル付けプロセスをスピードアップできます。

Link to this sectionUltralytics Platform を通じたデータセット品質の分析#

データの準備とアノテーションに加えて、信頼性の高いコンピュータビジョンモデルを構築するには、データセットの品質を理解することが不可欠です。クラス分布、アノテーション品質、データセットの分割方法、データがさまざまな条件下でどのように表現されているかといった要素が明確でないと、モデルのパフォーマンスに影響を与える問題を特定することが困難になる場合があります。

Ultralytics Platform には、データセットをより効果的に分析するための組み込み機能が含まれています。これらのインサイトは、画像（Images）、クラス（Classes）、チャート（Charts）といったタブ全体を通じて、データセットインターフェース内で直接確認できます。

チャートタブでは、分割分布（学習、検証、テスト）、クラスの頻度、画像内のどこに物体が出現するかを示すアノテーションヒートマップなど、データセットレベルの統計情報を表示できます。

クラスタブでは、クラスごとのアノテーション数の内訳が提供され、クラスの不均衡をより容易に特定できます。一方、画像タブでは、寸法、アノテーション数、ラベルが個々の画像にどのように分散しているかといった画像レベルの詳細情報が表示されます。

これらのインサイトにより、クラスの不均衡、欠落しているシナリオ、またはデータ分布の不均等といった問題を特定しやすくなります。例えば、特定のクラスのサンプルが非常に少ないことや、ほとんどのアノテーションが画像内の特定の領域に集中していることに気づくかもしれません。

データ分析以外にも、プラットフォームはデータセットのキュレーションと拡張をサポートしています。つまり、問題のあるデータを修正または削除したり、既存のデータのバリエーションを作成してモデルのパフォーマンスを向上させたりすることで、データセットを洗練させることができます。これらの改善は、アノテーションの更新、新しいデータの追加、または分析からのインサイトに基づいたデータセット分割の再構成を行うことで、プラットフォーム内で直接実行可能です。

Link to this sectionUltralytics Platform からのデータセットのエクスポート#

データセットの準備と検証が完了したら、異なる環境で使用するためにエクスポートできます。これにより、ローカル、クラウド、または他のツールやワークフローでモデルを学習させるかどうかにかかわらず、コンピュータビジョンデータを好みの環境で使用できる柔軟性が得られます。

Ultralytics Platform は、YOLO、COCO、NDJSON を含む複数のエクスポート形式をサポートしており、異なる学習ワークフローやツールにデータセットを容易に統合できます。

Ultralytics Platformからデータセットをエクスポート

図3：Ultralytics Platform からのデータセットのエクスポート (ソース)

データセットをエクスポートすると、画像、アノテーション、構造を含む、特定の時点でのデータの固定スナップショットが作成されます。新しいデータが追加されたり、アノテーションが更新されたり、分割が調整されたりするとデータセットは変化するため、これは有用です。スナップショットをエクスポートすることで、特定の学習実行に使用されたデータセットの正確なバージョンを保持できます。

これにより、同じデータ設定でモデルを再学習させ、異なるデータセットバージョン間でパフォーマンスを比較できるため、後から結果を再現することが容易になります。例えば、何が変更されたかを推測するのではなく、新しい画像を追加したりアノテーションを修正したりすることが実際にモデルの精度を向上させているかどうかを評価できます。

エクスポートは非同期で処理され、準備が整うと、データセットをダウンロードして、ローカル、クラウド、またはオフラインの学習環境で使用できます。

Link to this sectionUltralytics Platform 上の反復によるデータセット品質の向上#

機械学習やディープラーニングのワークフローでは、実環境データは学習中に使用されたデータとは異なることが多いため、デプロイ後もデータセット管理が継続されます。

モデルが新しい入力に遭遇すると、低照度環境、異なるカメラアングル、遮蔽、混雑したシーンといった欠落している条件や、アノテーションエラーといったデータセット内のギャップがより明確になり、時間の経過とともにデータを洗練させることが必要になります。

データセットを改善する方法はいくつかあります。低照度環境、異なるカメラアングル、遮蔽、混雑したシーンといった欠落している条件をカバーするために新しい画像や動画を追加し、データ内の死角を減らす手助けができます。

同時に、適切にラベル付けされた物体や正確なBBoxやマスクなど、アノテーションが正確かつ一貫していることを確認することは、モデルがより信頼性の高いパターンを学習するのに役立ちます。

これは通常、モデルの学習、結果の評価、エラーの特定、データセットの改善、そして再学習という単純なループに従います。各ステップは、誤ったアノテーション、データの欠落、または表現不足のケースといった問題を浮き彫りにするのに役立ちます。

例えば、店舗内の商品を検出するために使用されるリアルタイムの棚監視システムに取り組んでいるとします。データセットの初期バージョンには、特定の製品タイプ、照明条件、または混雑した棚の配置が含まれていない可能性があります。評価中に、これらの状況でアイテムを検出するのにモデルが苦労していることに気づくかもしれません。

パフォーマンスを向上させるために、これらの欠落しているシナリオをカバーする新しい画像を収集し、必要に応じてアノテーションを更新できます。このプロセスを繰り返すことで、時間の経過とともにモデルは実環境でより正確かつ信頼性が高まります。

Ultralytics Platform は、データセットの更新を学習や評価と結びつけることで、このワークフローをサポートします。組み込みの実験追跡機能とパフォーマンスメトリクスにより、進捗を監視し、時間の経過とともにデータセットを継続的に改善することが容易になります。

Link to this sectionUltralytics Platform を使用したデータセット変更の追跡#

モデル開発プロセスの一環としてデータセットがどのように進化するかを簡単に説明しました。新しいデータが追加され、アノテーションが洗練され、クラスが更新される中で、これらの変更を追跡することは、データ品質を維持し、一貫したモデルパフォーマンスを確保するために重要になります。

データセットの追跡とバージョン管理をサポートする重要な Ultralytics Platform 機能は以下の通りです：

データセットのバージョニング: NDJSON スナップショットとして固定されたデータセットバージョンを作成できます。各バージョンは、特定の時点における画像数、クラス数、アノテーション数、データセットサイズなどの重要な詳細情報をキャプチャします。これらのバージョンは保存され、後でダウンロードできるため、実験の再現や異なるデータセット状態間での結果の比較が容易になります。
バージョンタブ: すべてのデータセットバージョンはバージョンタブに整理されており、バージョン履歴を表示したり、変更点の説明を追加したり、時間の経過とともにデータセットがどのように進化するかを追跡したりできます。
モデルとのリンク: モデルタブには、データセットを使用して学習されたすべてのモデルが、mAP などのメトリクスや学習の詳細情報とともに表示されます。データセットバージョンは学習実行と関連付けられており、データの変更がモデルのパフォーマンスにどのような影響を与えるかを理解するのに役立ちます。
エラータブ: エラータブは、処理中に失敗したファイルを、エラーの詳細や推奨事項とともに強調表示します。これにより、学習の前に破損したファイルやサポートされていない形式といった問題を特定し、修正できます。
データセットインターフェース（画像タブおよびクラスタブ）: これらのビューでは、画像を閲覧し、アノテーションを見直し、クラスラベルを管理し、クラス分布を分析できます。フィルタリング、並べ替え、アノテーションされていない画像の特定といった機能により、時間の経過とともにデータセット品質を監視することがよりシンプルになります。
統計とチャート: 分割分布、クラス頻度、アノテーションヒートマップといった組み込みのデータ可視化機能により、データの分散における変更を追跡し、データセットが進化するにつれて不均衡を特定するのに役立ちます。

Ultralytics Platformでデータセットのクラス分布を分析

図4：Ultralytics Platform でのデータセットのクラス分布を分析する様子 (ソース)

Link to this sectionUltralytics Platform 内での学習およびデプロイへのデータセットの接続#

Ultralytics Platform は、AI モデル開発の異なるステージを単一のパイプラインに接続します。これにより、生のデータから本番環境に対応したビジョンAIアプリケーションへの移行プロセスが効率化されます。

データセットが準備されアノテーションが完了すると、プラットフォーム内で直接、Ultralytics YOLO26 などのコンピュータビジョンモデルの学習に使用できます。学習中、組み込みのダッシュボードを使用して、パフォーマンスメトリクスを監視し、実験を追跡し、モデルがどの程度学習できているかを評価できます。

Ultralytics Platformでモデルのトレーニングメトリクスを表示

図5：Ultralytics Platform でモデル学習メトリクスを表示する様子 (ソース)

学習後、ブラウザ上で直接新しい画像に対してモデルをテストし、デプロイ前に予測結果を評価して改善点を特定できます。モデルが良好な性能を発揮すれば、本番環境にデプロイ可能です。

プラットフォームは、モデルを複数の形式にエクスポートしたり、推論サービスや専用エンドポイントを通じてデプロイしたりすることをサポートしており、さまざまな環境で実行可能です。

デプロイ後は、組み込みの監視ツールを使用して、使用状況やモデルの挙動に関連するメトリクスなど、システムのパフォーマンスを時間の経過とともに追跡できます。これにより、実環境のアプリケーションでビジョンAIシステムを維持・改善することがよりシンプルになります。

Link to this sectionUltralytics Platform を使用したデータセット管理のベストプラクティス#

Ultralytics Platform を使用してデータセットを管理する際に留意すべき重要な要因は以下の通りです：

フィルターを使用してギャップを見つける: フィルタリングツールを使用して、ラベル付けされていないデータや表現不足のデータを特定し、アノテーションを完了させ、カバー率をよりシームレスに向上させます。
早期にエラーを修正: 品質管理のためにエラータブを使用し、学習の前に失敗したアップロード、破損したファイル、サポートされていない形式を捕捉します。
データセットを継続的に更新: 新しいデータを追加し、アノテーションを修正し、エッジケースが現れたらそれらを含めます。これにより、カバー率が向上し、実環境のシナリオで確実にパフォーマンスを発揮できるようになります。
データセットの分割を慎重に管理: 学習用、検証用、テスト用のセット間で良好なバランスを確保します。必要に応じて、分割を手動で再構成したり、自動再分配機能を使用したりできます。

Ultralytics Platform の詳細については、公式のUltralytics ドキュメントをご確認ください。

Link to this section重要なポイント#

コンピュータビジョンプロジェクトが拡大するにつれて、データセットを効果的に管理することは、モデル開発と同じくらい重要になります。データセット管理への構造化されたアプローチは、データ品質の向上、ワークフローの合理化、そして時間の経過に伴うより良いモデルパフォーマンスの維持を支援します。

Ultralytics Platform は、データセット管理、学習、デプロイを単一のワークフローにまとめることで、このプロセスを簡素化します。データセット管理への構造化されたアプローチを採用することで、チームは複雑さを軽減し、効率を向上させ、よりスケーラブルで信頼性の高いコンピュータビジョンシステムを構築できます。

成長を続ける私たちのコミュニティに参加し、AIリソースのためにGitHub リポジトリを探索してください。今すぐビジョンAIで構築を始めるには、ライセンスオプションをご覧ください。農業におけるAIがどのように農業を変革しているか、またヘルスケアにおけるビジョンAIがどのように未来を形作っているかについては、私たちのソリューションページをご覧ください。

Explore solutions

AIの未来を共に築き上げましょう！

機械学習の未来とともに旅を始めましょう

ライセンスをリクエストする使ってみる

Ultralytics Platformを活用したコンピュータビジョンにおけるスマートデータセット管理

Link to this sectionコンピュータビジョンにおけるデータセット管理の重要性#

Link to this sectionデータ品質が実世界の信頼性に与える影響#

Link to this sectionデータセット管理の重要な側面#

Link to this sectionUltralytics Platform によるデータセット管理#

Link to this sectionUltralytics Platform へのデータセットのアップロード#

Link to this sectionUltralytics Platform でのデータアノテーション#

Link to this sectionUltralytics Platform を通じたデータセット品質の分析#

Link to this sectionUltralytics Platform からのデータセットのエクスポート#

Link to this sectionUltralytics Platform 上の反復によるデータセット品質の向上#

Link to this sectionUltralytics Platform を使用したデータセット変更の追跡#

Link to this sectionUltralytics Platform 内での学習およびデプロイへのデータセットの接続#

Link to this sectionUltralytics Platform を使用したデータセット管理のベストプラクティス#

Link to this section重要なポイント#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！