Ultralytics YOLO

Ultralytics YOLO26とビジョンAIでスマートな製品を構築する

YOLO26とビジョンAIを使用してスマートな製品を構築することで、リアルタイム検知、インテリジェントな自動化、スケーラブルで応答性の高い製品体験を実現する方法を学びましょう。

ABAbirami Vina

6 min readMarch 4, 2026

デバイスや機械、公共インフラに組み込まれたカメラによって、毎日何千時間もの映像が記録されています。その映像のほとんどは保存されるだけで、何か問題が起きた時にのみ確認されたり、飛ばし読みされたりしています。

多くの場合、視覚データは利用可能ですが、それをリアルタイムで解釈する能力が不足しています。プロダクトのコネクテッド化やデータ駆動化が進むにつれ、この限界がより顕著になっています。

ユーザーは、システムが単にイベントを記録したり固定的な指示に従ったりする以上のことを期待しています。例えば、スマートプロダクトには、手動による確認を待ったり硬直的なルールセットに依存したりすることなく、何が起きているかを認識し、即座に応答することを求めています。

人工知能の最近の進歩は、そのギャップを埋めるのに役立っています。特に、コンピュータビジョンは、マシンが画像や映像を解釈できるようにし、システムがシーンを分析してリアルタイムで応答することを可能にします。

しかし、この機能をプロダクトに取り入れるには、高速かつ信頼性の高いモデルが必要です。最先端のコンピュータビジョンモデルであるUltralytics YOLO26はこの目的のために構築されており、リアルタイムデプロイに必要な速度と精度を実現します。

YOLO26は、物体検出、インスタンスセグメンテーション、物体追跡といった主要なビジョンタスクをサポートしており、プロダクトが視覚データを解釈し、インテリジェントに応答することを可能にします。

YOLO26を使用して画像内の物体を検出

図1：YOLO26を使用して画像内の物体を検出 (ソース)

この記事では、コンピュータビジョンとUltralytics YOLO26を使用して、よりスマートなプロダクトを構築し、現実世界のアプリケーションでインテリジェントな自動化をサポートする方法を探ります。それでは始めましょう！

Link to this section従来のプロダクト開発におけるギャップ#

コンピュータビジョンがどのようにスマートなプロダクトの構築に役立っているかを掘り下げる前に、従来のルールベースシステムや古いアルゴリズムに依存する場合にチームが直面する課題を詳しく見ていきましょう。

従来のプロダクト開発における主要な課題をいくつか挙げます：

硬直的なルールベースシステム： ハードコードされたロジックは制御された環境では機能しますが、現実の設定は予測困難なことがほとんどです。照明、カメラアングル、物体の見え方のわずかな変化が、定義済みのルールを即座に破綻させ、精度を低下させる可能性があります。
現実世界の多様性に対する適応性の欠如： 従来のシステムは、新しいシナリオや予期せぬシナリオにうまく適応できません。アップデートにはしばしば手動の調整と繰り返しの最適化が必要となり、プロダクトの改善を遅らせ、メンテナンスの手間を増加させます。
スケーラビリティの制限： 画像データや映像データの量が増えるにつれ、従来の画像処理パイプラインは追いつくのに苦労します。処理が遅くなり、ビデオストリーム全体でリアルタイム性能を維持することが困難になります。
リアルタイムシナリオにおける高いレイテンシ： 多くの従来のアプローチでは、継続的な映像ストリームを十分に高速に処理できません。出力の遅延は自動化の能力を弱め、全体的な応答性を低下させます。
高コストなコンピューティング要件： 許容可能な精度を達成するには、多くの場合、専用のGPU（グラフィックス処理ユニット）を含む多大なハードウェアリソースが必要となり、インフラコストが増大します。

Link to this sectionよりスマートなプロダクト構築におけるコンピュータビジョンの役割#

次に、コンピュータビジョンがどのようにスマートなプロダクトの動作をサポートできるかを見ていきましょう。

今日、ほとんどのコネクテッドプロダクトは、通常の業務プロセスの一環として既に視覚データを収集しています。カメラは様々なデバイスに内蔵され、物理的な場所に設置され、IoTシステムを通じてリンクされています。

その結果、画像や映像はバックグラウンドで絶えずキャプチャされています。課題はデータを収集することではありません。

難しいのは、収集されたデータをリアルタイムで理解することです。視覚的なインテリジェンスがなければ、映像は単に保存されて後で確認されるだけとなり、問題が発生した後になってから気づくというケースが多くなります。

コンピュータビジョンがそれを変えます。パターンを認識するようにトレーニングされたニューラルネットワークを使用することで、システムはリアルタイムで画像や映像を分析できます。固定ルールや手動チェックに頼る代わりに、プロダクトはシーンで何が起きているかを解釈し、イベント発生と同時に応答できます。

この視覚機能をプロダクトに取り入れるために、チームはUltralytics YOLO26のような効率的なコンピュータビジョンモデルに頼ることができます。YOLO26は主要なビジョンタスクをサポートしており、プロダクトがリアルタイムの意思決定を可能にするのに十分な速さで視覚情報を解釈するのを支援します。

Link to this sectionビジョン駆動型プロダクトの構成要素#

コンピュータビジョンタスクがどのようにスマートなプロダクトに寄与するか、簡単に解説します：

物体検出： このタスクは、bboxを使用して各フレーム内の関連する物体を特定・位置特定し、信頼度スコアを割り当てます。これにより、画像内に何が存在するかを明確に把握できます。
物体追跡： 特定の物体を複数のフレームにわたって追跡するために使用でき、ビジョンシステムが動きや時間経過に伴う変化を理解できるようにします。
画像分類： このタスクは、主要な内容に基づいて画像全体にラベルを割り当てます。シーンをカテゴリ分けしたり、フレーム内の特定の条件を識別したりします。
インスタンスセグメンテーション： ピクセルレベルで正確に物体の輪郭を描くことができ、プロダクトが形状、境界、空間的な関係をよりよく解釈できるようにします。
ポーズ推定： このタスクは、人体やその他の関節を持つ物体のキーポイントを検出します。姿勢、動作、物理的なインタラクションをリアルタイムで捉えます。
OBB検出： 標準的な水平方向のbboxではなく、回転したbboxを使用して物体を検出します。物体が角度を持っていたり、密集した環境にあったりする場合のローカライズ精度が向上します。

これらの機能が継続的な視覚データに適用されると、プロダクトはより速く応答し、より確実に自動化を行い、リアクティブ（受動的）ではなく認識していると感じさせる体験を提供できます。イベントが後で確認されるのを待つのではなく、システムがその瞬間に理解し、行動できます。

Link to this sectionリアルタイムビジョンモデルがインテリジェントなプロダクト動作を実現する方法#

ビジョン駆動型プロダクトについてさらに学ぶにつれて、システムが単にビデオを記録する段階からリアルタイムで応答する段階へどのように移行するのか、疑問に思うかもしれません。

それはカメラの前に何があるかを認識することから始まります。ビデオが流れる中で、ビジョンモデルが各フレームを分析し、特定の物体や人物といった重要な要素を特定します。システムはすべての動きに反応するのではなく、関連するシグナルのみに焦点を当てます。

もう一つの重要な側面は速度です。リアルタイムシステムは、各フレームを高速かつ一貫して処理し、検出と意思決定が目に見える遅延なしに行われるようにしなければなりません。

例えば、Ultralytics YOLO（You Only Look Once）モデルファミリーは、視覚データをリアルタイムで処理するために構築されました。Ultralytics YOLO26のようなモデルは、Ultralytics YOLOv5、Ultralytics YOLOv8、Ultralytics YOLO11といった以前のバージョンを基盤とし、アーキテクチャの改善、パフォーマンスの最適化、効率性の向上を取り入れています。その結果、厳しい現実世界の状況下でも、スピードと精度が向上しています。

プロダクトに統合されると、これらのモデルはバックグラウンドで継続的に実行され、各フレームが到着するたびに分析を行います。システムは事前に定義された条件をチェックし、条件が満たされると、瞬時にアラートをトリガーしたり、ワークフローを更新したり、アクションを開始したりできます。

これにより、ビジョン駆動型システムは、ロボティクスや自律走行車からスマートホームやセキュリティシステムに至るまで、様々な環境への統合において、より応答性が高く、スケーラブルで実用的になります。ビジネスリーダーにとって、これは迅速な対応、手動確認の減少、そしてリアクティブではない信頼できる自動化につながります。

Link to this sectionYOLO26を使用してプロダクトでリアルタイムの視覚インテリジェンスを活用する#

YOLO26を含むUltralytics YOLOモデルは、学習済みモデルとしてすぐに利用可能です。つまり、COCOデータセットのような、大規模で広く使用されているデータセットですでにトレーニングされています。

この事前トレーニングのおかげで、YOLO26は現実世界の一般的な物体を即座に認識できます。これにより、プロダクトチームはゼロからモデルをトレーニングすることなく、実用的な出発点を得て、視覚機能の構築を開始できます。

より特定のプロダクトニーズに対しては、これらの学習済みモデルを、高品質なアノテーションが施されたドメイン固有のデータを用いてさらにファインチューニングできます。

例えば、天井にカメラが設置されたレストランを考えてみましょう。YOLO26のようなカスタムトレーニング済みのビジョンAIモデルを使用すると、店内に何人いるかを検出できます。どのテーブルが利用中で、どの椅子が空いているかを識別可能です。

小売店で人物、空きスペース、スタッフがいるレジを検出するYOLO26

図2：YOLO26は小売店における人物、空きスペース、スタッフがいるレジのリアルタイム検出を可能にします。 (ソース)

このようなシナリオにおいて、YOLO26はバックグラウンドで継続的に動作する視覚エンジンとして機能します。チームは、パフォーマンスのニーズやエネルギー効率の目標に応じて、このようなモデルをエッジデバイスにデプロイすることも可能です。

Link to this sectionスマートプロダクトにおけるYOLOモデルの実際のアプリケーション#

リアルタイムビジョンモデルの仕組みが理解できたところで、Ultralytics YOLOモデルが、スマートプロダクト内で様々なユースケースにどのように適用され、それらをより認識力が高く、応答性がよく、視覚情報に基づいて行動できるようにするかを見ていきましょう。

Link to this sectionYOLOによるヘルスケア製品のインテリジェンス#

ヘルスケアにおける手術トレーニングに関しては、ツールの取り扱いやワークフローを評価するために、数時間の処置映像が手動で確認されることがよくあります。このプロセスは時間がかかり、人間の観察に大きく依存する可能性があります。

YOLOベースのビジョンモデルをシステムに統合すれば、処置が行われると同時にビデオフィードを自動的に分析できます。モデルは外科用器具をリアルタイムで検出し、それらがどこでいつ使用されたかを識別できます。

これにより、絶え間ない手動確認なしで、構造化されたログ記録、改善された分析、高品質なパフォーマンスインサイトが可能になります。実際、最新のYOLO26モデルの先代であるYOLO11モデルを使用した研究では、リアルタイムの腹腔鏡器具検出が、埋め込みシステム上でも効果的に実行できることが示されました。

YOLOを使用したリアルタイム腹腔鏡器具検出

図3：YOLOを使用したリアルタイム腹腔鏡器具検出 (ソース)

このモデルは、ライブの手術設定に十分な速度で動作しながら、高い精度を維持しました。これは、ディープラーニングが手術中に信頼できるリアルタイムの視覚フィードバックをどのようにサポートできるかを示しています。

Link to this sectionYOLO駆動型のスマートな小売体験の創造#

私たちは皆、混雑したスーパーマーケットの棚の前で、正しい製品を見つけようとした経験があるはずです。多くのアイテムが似ており、ラベルは小さく、製品が間違った場所に置かれていることもよくあります。

小売業者にとって、これはリアルタイムの棚の視認性を困難にします。ビジョンAIとYOLO物体検出モデルは、カメラフィードやライブビデオストリームを通じて、棚に実際に何があるかを把握するのに役立ちます。これにより、バーコードスキャンや手動チェックへの依存が減り、棚のモニタリングがより正確かつレスポンシブになります。

YOLO26によるスーパーの棚の製品検出とセグメンテーション

図4：YOLO26によるスーパーの棚の製品検出とセグメンテーション

このような精度があれば、小売業者は定期的な手動確認だけに頼る必要はなくなります。棚はライブビデオを通じて継続的に監視可能です。

在庫不足はすぐにフラグが立てられ、誤配置された製品はより速く見つけられ、チェックアウトプロセスはよりスムーズに進みます。これにより、小売業者は業務のコントロールが向上し、顧客に対してよりシームレスなショッピング体験を提供できます。

Link to this sectionビジョンAIと自律航法#

自律システムは非常に効率的ですが、固定ルートやプリセットされた座標に頼ることがよくあります。安定した環境ではこれでうまくいきますが、現実世界の状況が変わらないことはほとんどありません。

ディープラーニングモデルによって駆動されるビジョンAIソリューションは、マシンが周囲を理解し、リアルタイムで調整することを可能にします。コンピュータビジョンと適応型アルゴリズムを組み合わせることで、システムは硬直的なプログラム済みの指示に頼ることなく、変化が起こるたびに応答できます。

では、これは現実の設定でどのように機能するのでしょうか？倉庫で稼働するロボットの例を見てみましょう。カメラが周囲を継続的にキャプチャし、ビジョンモデルがリアルタイム物体検出を実行して障害物、棚、通路を特定します。

これらの検出結果はローカライゼーションをサポートし、ロボットが施設内での正確な位置を特定するのに役立ちます。この視覚入力に基づいて、最適化アルゴリズムが即座にルートを調整し、状況が変化しても効率的に移動し、スムーズな自動化を維持できるようにします。

Link to this sectionインフラモニタリングとよりスマートな欠陥検出#

送電線やグリッド機器は、安全性と信頼性を維持するために定期的な検査が必要です。ほとんどの場合、これらのユーティリティ検査にはまだ手動チェックが含まれており、時間がかかり、広域や遠隔地での管理が困難です。

ビジョンAIは、予定された現場訪問のみに依存することなくインフラを監視する、よりシンプルな方法を提供します。YOLO26のようなモデルは、実際の屋外条件で撮影された画像から、ひび割れ、腐食、目に見える損傷など、送電線絶縁体の欠陥を直接検出できます。

視覚データをリアルタイムで分析することで、このようなシステムは、見過ごされていた可能性のある潜在的な問題にフラグを立てることができます。早期にこれらの問題を特定することで、機器故障のリスクが低減され、予期せぬ停電が最小限に抑えられ、よりプロアクティブなメンテナンス業務がサポートされます。

Link to this sectionビジョンベースのスマートプロダクトのROIを測定する#

ビジネスリーダーにとって、ビジョンAIは単なる技術的なパフォーマンスの問題ではありません。測定可能なビジネスインパクトの問題です。

慎重に実装されれば、ビジョン駆動型システムは効率を改善し、コストを削減し、精度を向上させることができます。これらの利益は、より良いユーザー体験と全体的なパフォーマンスの強化にも寄与します。

インパクトが明確になる分野をいくつか挙げます：

手動の労力の削減： ビジョンシステムは、反復的な検査、モニタリング、検証タスクを自動化し、手動プロセスへの依存を下げ、チームがより戦略的な仕事に集中できるようにします。
迅速な意思決定サイクル： リアルタイムの視覚分析により、システムは問題を検出し、瞬時にアクションをトリガーできるため、対応時間が短縮され、運用のスムーズさが維持されます。
運用エラーの減少： 自動検出は一貫性をもたらします。日常タスクにおける人の監視を減らすことで、組織は多くの場合、ミスの減少とより信頼できる成果を目の当たりにします。
ユーザーエンゲージメントの向上： 見てインテリジェントに応答できるプロダクトは、より対話的で適切であると感じられます。これは、ユーザーの信頼強化、より良い体験、そして長期的な採用率向上につながります。

Link to this section重要なポイント#

ビジョンAIは、プロダクトが視覚情報をリアルタイムで解釈できるようにし、よりスマートな自動化と応答性の高い体験をサポートします。検出、追跡、セグメンテーションといった機能を備えたシステムは、基本的なルールを超えて状況を認識した意思決定へと移行します。Ultralytics YOLO26のような効率的なモデルは、スケーラブルで競争力のあるビジョン駆動型プロダクトを構築する上で実用的な選択肢となります。

アクティブなコミュニティに参加し、製造におけるAIや小売におけるビジョンAIなどのイノベーションを発見してください。当社のGitHubリポジトリにアクセスし、ライセンスオプションを確認して、今すぐコンピュータビジョンを始めましょう。