YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Speech Recognition

音声認識(ASR)が話し言葉をテキストに変換する仕組みを解説します。ニューラルネットワーク、現実のAIアプリケーション、およびマルチモーダルなUltralytics YOLO26について学びましょう。

音声認識(専門的には「自動音声認識」、略称ASR)とは、コンピュータが音声を識別・処理し、書き起こしてテキストデータへと変換する特定の能力を指します。この技術はヒューマンコンピュータインタラクションにおける重要な架け橋となっており、人工知能 (AI) システムがキーボードやタッチスクリーンのみに頼るのではなく、音声コマンドを入力として受け取れるようにします。オーディオ波形を分析し、膨大な言語データセットと照合することで、こうしたシステムは多様なアクセント、話し方の速度の違い、複雑な語彙を解釈することが可能です。このプロセスは現代の 自然言語処理 (NLP) ワークフローにおける基礎的なコンポーネントであり、構造化されていない音声を、機械が読み取り可能な構造化データへと変換します。

Link to this section音声認識の仕組み#

音声認識を支えるアーキテクチャは、単純なテンプレートマッチングから、ディープラーニング (DL) を活用した高度なパイプラインへと進化してきました。プロセスは一般的に、一連の重要なステップに従います。まず、生ののアナログオーディオがキャプチャされ、デジタル化されます。次に、システムは 特徴量抽出 を実行して背景ノイズを除去し、音韻的特徴を分離します。多くの場合、オーディオを スペクトログラム として視覚化し、時間の経過に伴う周波数強度をマッピングします。

Once the audio features are isolated, an acoustic model comes into play. This model, often built using a Neural Network (NN) such as a Recurrent Neural Network (RNN) or a modern Transformer, maps the acoustic signals to phonemes—the basic units of sound. Finally, a language model analyzes the sequence of phonemes to predict the most probable words and sentences. This step is crucial for distinguishing between homophones (like "to," "two," and "too") based on context. Developers utilize frameworks like PyTorch to train these data-intensive models.

Link to this section実社会での応用#

音声認識は現在、いたるところで利用されており、多くのセクターで効率性とアクセシビリティを推進しています。

  • 医療ドキュメンテーション: 医療分野では、AI in healthcare を通じて、医師は Nuance Communications などのプロバイダーが提供する専門ツールを使用し、臨床ノートを電子健康記録 (EHR) に直接口述入力することができます。これにより、事務作業による疲弊が大幅に軽減され、データの精度が向上します。
  • 車載インターフェース: 最新の車両には音声コントロールが統合されており、ドライバーはハンズフリーでナビゲーションやエンターテインメントシステムを管理できます。AI in automotive は、こうした信頼性の高い音声インターフェースを通じて視覚的な注意の散漫を最小限に抑え、安全性を優先します。
  • 仮想アシスタント: AppleのSiri のような消費者向けエージェントは、ASRを活用してタイマーの設定からスマートホームデバイスの制御まで、多様なタスクのコマンドを解析し、仮想アシスタント の主要な入力レイヤーとして機能します。

Link to this section関連用語の区別#

しばしば同じ意味でカジュアルに使われることもありますが、AI用語集にある関連概念と音声認識を区別することが重要です。

  • 音声テキスト変換 (STT): STTは特に出力機能(音声をテキストに変換すること)を指しますが、音声認識は音声を識別するという、より広範な技術的方法論を包括しています。
  • 自然言語理解 (NLU): ASRは音声をテキストに変換しますが、本質的にそのメッセージを「理解」しているわけではありません。NLUは、書き起こされた単語の背後にある意図、感情、意味を解釈するダウンストリームプロセスです。
  • テキスト音声合成 (TTS): これは逆の操作であり、書き言葉のテキストから人工的で人間のような音声を合成します。

Link to this sectionコンピュータビジョンとの統合#

インテリジェントシステムの次なるフロンティアは、聴覚データと視覚データを組み合わせる マルチモーダル学習 です。例えば、サービスロボットが YOLO26 を用いたリアルタイムの 物体検出 で部屋内の特定のユーザーを特定し、同時に音声認識を使って「水筒を持ってきて」といったコマンドを理解する、といったケースです。この融合により、見ることも聞くこともできる包括的なAIエージェントが実現します。Ultralytics Platform は、こうした複雑なデータセットの管理や、マルチモーダルアプリケーションのための堅牢なモデルのトレーニングを促進します。

以下の Python の例は、一般的なラッパーツールである SpeechRecognition ライブラリを使用してオーディオファイルを書き起こす方法を示しています。

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe the audio using Google's public speech recognition API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio")

システム性能は通常、単語誤り率 (WER) メトリクスを用いて評価され、スコアが低いほど精度が高いことを示します。こうした技術がビジョンモデルと連携してどのように機能するかについての詳細は、NLPとコンピュータビジョンの架け橋 に関するガイドをご覧ください。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう