Yolo 深圳
深セン
今すぐ参加
用語集

コンピュータビジョン(CV)

コンピュータビジョンでAIの可能性を解き放つ!オブジェクト検出、ヘルスケア、自動運転車などにおけるその役割を探求してください。今すぐ詳細をご覧ください!

コンピュータビジョン(CV)は、人工知能(AI)の高度な分野であり、 コンピュータやシステムがデジタル画像、動画、その他の視覚的入力から意味のある情報を導き出すことを可能にします。 人間の視覚は周囲を瞬時に認識・理解する生来の能力を持つ一方、コンピュータはパターン認識やピクセル解釈のために訓練が必要である。機械学習(ML)特に深層学習(DL)アルゴリズムを活用することで、CVシステムは視覚データを取り込み、処理し、その情報に基づいて推奨事項を提示したり行動を起こしたりできる。

コンピュータビジョンの仕組み

本質的に、コンピュータは画像をピクセルを表す数値配列として認識する。現代のコンピュータビジョンは主に畳み込みニューラルネットワーク(CNN)に依存しており、これは人間の脳内のニューロンの接続パターンを模倣するように設計されている。これらのネットワークは特徴抽出と呼ばれるプロセスを通じて、単純なエッジやテクスチャから複雑な形状や物体に至るまでの特徴の階層を識別することを学習する。

効果的に機能するためには、これらのモデルには膨大な量のトレーニングデータが必要です。例えば、自動車を認識するためには、モデルは様々な状態にある何千ものラベル付き自動車画像を処理する必要があります。Ultralytics のようなツールはこのワークフローを効率化し、ユーザーがデータセットにアノテーションを付け、クラウド上でモデルをトレーニングし、効率的にデプロイすることを可能にします。

コンピュータビジョンのコアタスク

コンピュータビジョンは単一の機能ではなく、それぞれが特定の問題を解決する個別のタスクの集合体である:

  • 画像分類このタスクは画像全体にクラスラベルを割り当て、「この写真には何が写っているか?」という問いに答えます(例:猫と犬を区別する)。
  • 物体検出さらに一歩進んだ技術として、 検出は画像内の個別の物体を識別し、それらを囲む 境界ボックスを描画します。これはアイテムの計数や 特定の特徴の特定に不可欠です。
  • インスタンスセグメンテーションこれは、 検出された各オブジェクトに対して正確なピクセルレベルのマスクを提供し、同じクラスの個々のインスタンスを分離します。 医療画像の分析など、高精度を必要とするアプリケーションにおいて極めて重要です。
  • 姿勢推定これは、物体上の特定のキーポイント(例えば人体の関節)を検出し、track 含む。

実際のアプリケーション

コンピュータビジョンの有用性は、ほぼすべての産業に及び、これまで人間の目が必要だった作業を自動化する。

  • 製造と品質管理:産業環境では、コンピュータビジョンはしばしばマシンビジョンと呼ばれます。これは品質検査の自動化に用いられ、組立ライン上の製品に存在する微細な欠陥を、人間の検査員よりも迅速かつ正確に検出します。例えば、製造分野におけるAIは、故障を防止するための設備のリアルタイム監視を可能にします。
  • 自律走行技術:自動運転車は安全な走行を完全にコンピュータビジョンに依存している。カメラやLiDARセンサーからの入力を処理することで、これらの車両は歩行者、他の車両、交通標識をリアルタイムで識別する3D物体検出を実行する。これは高度な車両自動化を実現する上で不可欠な要素である。
  • 医療と診断:放射線科医は、X線、MRI、CTスキャンにおける異常の特定を支援するためにCVを活用します。医療分野におけるAIは、肉眼では見落とされる可能性のある関心領域を強調表示することで、腫瘍の特定など、疾患の早期発見に貢献します。

コンピュータビジョン対画像処理

画像処理とは区別することが重要である。 両者はしばしば連携して機能するが。

  • 画像処理とは、画像の強化や情報抽出を目的とした操作を指す(例: 明るさやコントラストの調整、Adobe Photoshopのようなフィルター適用)。 出力は通常、別の画像となる。
  • コンピュータビジョンは画像を入力として受け取り、情報や解釈(例:「この部屋には3人の人物がいます」)を出力します。CVは画像処理技術を用いて画像を準備し、ニューラルネットワークによる分析を可能にします。

Pythonによるコンピュータビジョンの実装

現代のライブラリにより、強力なCVモデルの実装が容易になりました。以下の例は、 最先端のモデルをロードする方法を示しています。 YOLO26 detect モデル を使用して ultralytics パッケージで提供される。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
results[0].show()

このシンプルなスクリプトは事前学習済みモデルを活用し、複雑な推論タスクを実行することで、現代のAIツールのアクセシビリティを実証しています。静止画を超えた開発を目指す開発者にとって、コンピュータビジョンはセキュリティやスポーツ分析で用いられる動画理解やリアルタイム追跡システムも支えています。OpenCVなどのライブラリとの統合により OpenCVなどのライブラリと連携することで、開発者は視覚世界をキャプチャし、処理し、分析する包括的なアプリケーションを構築できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加