YOLO Vision Shenzhen
深セン
今すぐ参加

Ultralytics YOLO26とビジョンAIによるスマート製品の構築

YOLO26とビジョンAIでスマート製品を構築することが、リアルタイムのdetect、インテリジェントな自動化、スケーラブルで応答性の高い製品体験をどのように可能にするかを学びましょう。

Ultralyticsでコンピュータービジョンプロジェクトをスケールアップ

始める

デバイス、機械、公共インフラに組み込まれたカメラによって、毎日何千時間ものビデオが撮影されています。その映像のほとんどは、問題が発生した場合にのみ保存、ざっと見、またはレビューされます。 

多くの場合、視覚データは利用可能ですが、それをリアルタイムで解釈する能力が不足しています。製品がより接続され、データ駆動型になるにつれて、この制限はより顕著になっています。 

ユーザーは、システムがイベントを記録したり、固定された指示に従うだけでなく、それ以上のことを行うことを期待しています。例えば、スマート製品が何が起こっているかを認識し、手動レビューを待ったり、厳格なルールセットに依存したりすることなく、即座に対応することを期待しています。

人工知能における最近の進歩が、そのギャップを埋めるのに役立っています。特に、コンピュータービジョンは機械が画像やビデオを解釈することを可能にし、システムがシーンを分析し、リアルタイムで対応することを可能にします。

しかし、この機能を製品に導入するには、高速かつ信頼性の高いモデルが必要です。Ultralytics YOLO26のような最先端のコンピュータビジョンモデルは、この目的のために構築されており、リアルタイムデプロイメントに必要な速度と精度を提供します。

YOLO26は、object detect、instance segment、object trackなどの主要なビジョンタスクをサポートしており、これにより製品が視覚データを解釈し、インテリジェントに応答することが可能になります。

図1. YOLO26を用いて画像内の物体をdetect (出典)

本記事では、コンピュータービジョンとUltralytics YOLO26が、よりスマートな製品を構築し、実世界のアプリケーションでインテリジェントな自動化をサポートするためにどのように使用できるかを探ります。早速始めましょう!

従来の製品開発におけるギャップ

コンピュータービジョンがどのようにスマートな製品の構築に役立っているかを深く掘り下げる前に、従来のルールベースシステムや古いアルゴリズムに依存する際にチームが直面する課題を詳しく見てみましょう。 

従来の製品開発における主要な課題をいくつかご紹介します。

  • 厳格なルールベースシステム: ハードコードされたロジックは管理された環境では機能しますが、現実世界の設定は予測が困難です。照明、カメラアングル、またはオブジェクトの外観のわずかな変化が、事前定義されたルールをすぐに破綻させ、精度を低下させる可能性があります。
  • 実世界の変動性への適応性の低さ: 従来のシステムは、新しいまたは予期せぬシナリオにうまく適応できません。更新には手動での調整と繰り返しの最適化が必要となることが多く、製品改善を遅らせ、メンテナンス作業を増加させます。
  • スケーラビリティの限界: 画像およびビデオデータの量が増加するにつれて、従来の画像処理パイプラインでは追いつかなくなります。処理が遅くなり、ビデオストリーム全体でリアルタイム性能を維持することが困難になります。
  • リアルタイムシナリオにおける高遅延: 多くの従来のアプローチでは、連続的な視覚ストリームを十分に迅速に処理できません。出力の遅延は自動化を弱め、全体的な応答性を低下させます。
  • 高価な計算要件: 許容可能な精度を達成するには、多くの場合、専用のGPUを含むかなりのハードウェアリソースが必要であり、これによりインフラコストが増加します。

よりスマートな製品構築におけるコンピュータービジョンの役割

次に、コンピュータービジョンがどのようにスマートな製品動作をサポートできるかを見てみましょう。

今日のほとんどのコネクテッド製品は、通常の運用プロセスの一部としてすでに視覚データを収集しています。カメラは様々なデバイスに組み込まれ、物理空間に設置され、IoT(モノのインターネット)システムを通じて連携されています。 

その結果、画像や動画は常にバックグラウンドでキャプチャされています。課題は、このデータを収集することではありません。 

難しいのは、収集されたデータをリアルタイムで理解することです。視覚的インテリジェンスがなければ、映像は単に保存され、後でレビューされることになり、問題がすでに発生した後であることがよくあります。

コンピュータビジョンがそれを変えます。パターン認識のために学習されたニューラルネットワークを使用することで、システムは画像や動画をリアルタイムで分析できます。固定されたルールや手動チェックに頼るのではなく、製品はシーンで何が起こっているかを解釈し、イベント発生時に対応できます。

この視覚能力を製品に導入するため、チームはUltralytics YOLO26のような効率的なコンピュータービジョンモデルに頼ることができます。YOLO26は主要なビジョンタスクをサポートし、製品が視覚情報をリアルタイムの意思決定を可能にするのに十分な速さで解釈するのに役立ちます。

視覚AIを活用した製品の構成要素

computer visionタスクがよりスマートな製品にどのように貢献できるかについて、簡単に見ていきましょう。

  • オブジェクトdetect:このタスクは、バウンディングボックスを使用して各フレーム内の関連オブジェクトを識別および特定し、信頼度スコアを割り当てることができ、画像内に何が存在するかを明確に理解できます。
  • オブジェクトtrack:これは、複数のフレームにわたって特定のオブジェクトをtrackするために使用でき、ビジョンシステムが時間の経過に伴う動きと変化を理解できるようにします。
  • 画像分類: このタスクは、主要なコンテンツに基づいて画像全体にラベルを割り当てます。シーンを分類したり、フレーム内の特定の条件を識別したりします。
  • インスタンスセグメンテーション: ピクセルレベルでオブジェクトを正確に輪郭で示すことができ、製品が形状、境界、空間関係をよりよく解釈できるようになります。
  • 姿勢推定: このタスクは、人体または他の関節を持つオブジェクトのキーポイントをdetectします。姿勢、動き、物理的な相互作用をリアルタイムでキャプチャします。
  • 指向性バウンディングボックス (OBB) detect: 標準的な水平バウンディングボックスの代わりに、回転したバウンディングボックスを使用してオブジェクトをdetectできます。オブジェクトが斜めに表示されたり、密集した環境にある場合に、ローカライゼーション精度が向上します。

これらの機能が連続的な視覚データに適用されると、製品はより迅速に応答し、より信頼性の高い自動化を実現し、受動的ではなく認識しているかのような体験を提供できます。イベントが後でレビューされるのを待つ代わりに、システムはその場で理解し、行動することができます。

リアルタイムビジョンモデルは、インテリジェントな製品の振る舞いをどのように実現するか

ビジョン駆動型製品についてさらに学ぶにつれて、システムが単にビデオを記録するだけでなく、実際にリアルタイムで応答するようにどのように移行するのか疑問に思うかもしれません。

カメラの前に何があるかを認識することから始まります。ビデオがストリーミングされると、ビジョンモデルは各フレームを分析し、特定のオブジェクトや人物など、重要な要素を識別します。すべての動きに反応するのではなく、システムは関連する信号のみに焦点を当てます。

もう一つの重要な側面は速度です。リアルタイムシステムは、各フレームを迅速かつ一貫して処理し、検出と意思決定が目立った遅延なく行われることを保証する必要があります。

例えば、Ultralytics YOLO (You Only Look Once) モデルファミリーは、視覚データをリアルタイムで処理するために構築されました。Ultralytics YOLO26のようなモデルは、Ultralytics YOLOv5Ultralytics YOLOv8Ultralytics YOLO11などの以前のバージョンを基盤とし、アーキテクチャの改良、性能最適化、効率向上を取り入れています。その結果、要求の厳しい実世界の条件下でも、速度と精度が向上しています。

製品に統合されると、これらのモデルはバックグラウンドで継続的に実行され、到着する各フレームを分析します。システムは事前定義された条件をチェックし、条件が満たされると、即座にアラートをトリガーしたり、ワークフローを更新したり、アクションを開始したりできます。

これにより、ビジョン駆動型システムは、ロボティクスや自律走行車からスマートホームやセキュリティシステムに至るまでの環境への統合において、より応答性が高く、スケーラブルで、実用的になります。ビジネスリーダーにとっては、これはより迅速な応答、手動チェックの削減、そして受動的ではなく信頼できると感じる自動化につながります。

YOLO26を活用して製品におけるリアルタイムの視覚的インテリジェンスを実現する

YOLO26を含むUltralytics YOLOモデルは、すぐに使える事前学習済みモデルとして提供されています。これは、COCO datasetのような大規模で広く利用されているdatasetで既に学習済みであることを意味します。

この事前学習により、YOLO26は一般的な実世界のオブジェクトをすぐに認識できます。これにより、製品チームは実用的な出発点を得ることができ、モデルをゼロからトレーニングすることなく視覚機能を構築できます。

より具体的な製品ニーズに対しては、これらの事前学習済みモデルを、高品質なアノテーション付きのドメイン固有データを使用してさらに微調整することができます。 

例えば、天井カメラが設置されたレストランを考えてみましょう。YOLO26のようなカスタムトレーニングされたビジョンAIモデルは、空間内に何人の人がいるかをdetectできます。どのテーブルが占有されているか、どの椅子が空いているかを識別できます。 

図2. YOLO26は、小売店における人物、オープンスペース、および有人レジのリアルタイムdetectを可能にします。 (出典)

この種のシナリオでは、YOLO26はバックグラウンドで継続的に動作するビジュアルエンジンとして機能します。チームは、パフォーマンス要件とエネルギー効率の目標に応じて、このようなモデルをエッジデバイスにデプロイすることもできます。 

スマート製品におけるYOLOモデルの実世界での応用

リアルタイムビジョンモデルがどのように機能するかについて理解が深まったところで、Ultralytics YOLOモデルが、さまざまなユースケースにおいてスマート製品内でどのように適用され、それらをより認識力があり、応答性が高く、見たものに基づいて行動できるようにするかを見ていきましょう。

YOLOを活用した医療製品インテリジェンス

ヘルスケアにおける外科手術トレーニングでは、何時間もの手術映像が、器具の操作やワークフローを評価するために手作業でレビューされることがよくあります。このプロセスは時間がかかり、人間の観察に大きく依存します。

YOLOベースのビジョンモデルがシステムに統合されることで、手術が行われる際にビデオフィードを自動的に分析できます。モデルはリアルタイムで手術器具を detect し、それらがいつどこで使用されているかを特定できます。 

これにより、絶え間ない手動レビューなしに、構造化されたロギング、改善された分析、および高品質なパフォーマンスインサイトが可能になります。実際、最新のYOLO26モデルの前身であるYOLO11モデルを用いた研究では、リアルタイムの腹腔鏡器具detectが組み込みシステム上でも効果的に実行できることが示されました。 

図3. YOLOを用いたリアルタイム腹腔鏡器具detect (出典)

このモデルは、ライブ手術環境で十分な速度で動作しながら、高い精度を維持しました。これは、ディープラーニングが手術中の信頼性の高いリアルタイム視覚フィードバックをどのようにサポートできるかを示しています。

スマートなYOLO活用型小売体験の創出

私たちは皆、混雑したスーパーマーケットの棚の前で、適切な製品を見つけようと立ち尽くした経験があるでしょう。多くの商品が似ており、ラベルは小さく、製品はしばしば間違った場所に置かれています。

小売業者にとって、これはリアルタイムの棚の可視化を困難にします。Vision AIとYOLOオブジェクトdetectモデルは、カメラフィードとライブビデオストリームを通じて、棚に実際に何があるかを理解する上で店舗システムを支援できます。これにより、バーコードスキャンや手動チェックへの依存が減り、棚の監視がより正確かつ応答性のあるものになります。

図4. YOLO26を使用したスーパーマーケットの棚にある製品のdetectとsegment

このような精度があれば、小売業者は定期的な手動チェックだけに頼る必要がなくなります。棚はライブビデオを通じて継続的に監視できます。 

在庫不足はすぐにフラグ付けされ、誤って配置された商品はより迅速に発見され、レジ処理はよりスムーズに実行できます。これにより、小売業者はより優れた運用管理が可能になり、顧客によりシームレスなショッピング体験を提供します。

Vision AIと自律航法

自律システムは高い効率性を持つことができますが、多くの場合、固定された経路や事前設定された座標に依存します。これは安定した環境では機能しますが、現実世界の状況はめったに同じではありません。 

ディープラーニングモデルを搭載したVision AIソリューションは、機械が周囲を理解し、リアルタイムで調整することを可能にします。コンピュータービジョンと適応アルゴリズムを組み合わせることで、システムは厳格な事前プログラムされた指示に頼るのではなく、変化が発生したときにそれに対応できます。

では、これは実世界の環境でどのように機能するのでしょうか?倉庫で稼働するロボットを例にとってみましょう。カメラが周囲を継続的に捉え、ビジョンモデルがリアルタイムのobject detectionを実行して、障害物、棚、通路を識別します。 

これらの detect は位置特定をサポートし、ロボットが施設内の正確な位置を特定するのに役立ちます。この視覚入力に基づいて、最適化アルゴリズムは経路を即座に調整し、条件が変化しても効率的にナビゲートし、スムーズな自動化を維持することを可能にします。

インフラ監視とよりスマートな欠陥detect

送電線や送電網設備は、安全性と信頼性を維持するために定期的な点検が必要です。これらのユーティリティ点検のほとんどは、依然として手動検査に依存しており、広範囲または遠隔地では時間と管理の困難さを伴います。

Vision AIは、定期的な現場訪問だけに頼ることなく、インフラストラクチャを監視するよりシンプルな方法を提供します。YOLO26のようなモデルは、実際の屋外条件で撮影された画像から、ひび割れ、腐食、目に見える損傷など、送電線碍子の欠陥をdetectできます。 

リアルタイムで視覚データを分析することで、そのようなシステムは、見過ごされがちな潜在的な問題を特定できます。これらの問題を早期に特定することで、機器の故障リスクを低減し、予期せぬ停止を最小限に抑え、よりプロアクティブなメンテナンス作業をサポートします。

ビジョンベースのスマート製品のROI測定

ビジネスリーダーにとって、ビジョンAIは単なる技術的性能にとどまりません。それは測定可能なビジネスインパクトに関わるものです。 

慎重に実装されたビジョン駆動型システムは、効率を向上させ、コストを削減し、精度を高めることができます。これらの利点は、より良いユーザーエクスペリエンスと全体的なパフォーマンスの強化にも貢献します。

その影響が明確になるいくつかの分野を以下に示します。

  • 手作業の削減:ビジョンシステムは、反復的な検査、監視、検証タスクを自動化し、手作業プロセスへの依存度を下げ、チームがより戦略的な作業に集中できるようにします。
  • 意思決定サイクルの高速化: リアルタイムの視覚分析により、システムは問題を即座に検出したり、アクションをトリガーしたりできるため、応答時間が短縮され、運用がスムーズに維持されます。
  • 運用エラーの削減: 自動検出は一貫性をもたらします。日常業務における人間の監視を減らすことで、組織はミスの削減とより信頼性の高い結果をしばしば得られます。
  • ユーザーエンゲージメントの向上: 見てインテリジェントに応答できる製品は、よりインタラクティブで関連性が高いと感じられます。これにより、ユーザーの信頼が強化され、より良い体験が提供され、長期的な採用率が高まります。

主なポイント

Vision AIは、製品が視覚情報をリアルタイムで解釈することを可能にし、よりスマートな自動化と応答性の高いエクスペリエンスをサポートします。detect、track、segmentなどの機能により、システムは基本的なルールを超えてコンテキストを認識した意思決定を行うことができます。Ultralytics YOLO26のような効率的なモデルは、スケーラブルで競争力のあるビジョン駆動型製品の構築を実用的なものにします。

私たちのアクティブなコミュニティに参加し、製造業におけるAI小売業におけるVision AIなどのイノベーションを発見してください。私たちのGitHubリポジトリを訪れ、ライセンスオプションをご確認の上、今すぐコンピュータービジョンを始めましょう。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。