Yolo 深圳
深セン
今すぐ参加
用語集

光学式文字認識(OCR)

AIとYOLO11 使用し、高速かつ正確にテキストを検出・抽出することで、OCRが画像やPDFを検索・編集可能なテキストに変換する方法をご覧ください。

光学式文字認識(OCR)は、コンピュータビジョンにおける基盤技術であり、スキャン文書、PDFファイル、道路標識の画像など、テキストの視覚的表現を機械が処理可能な編集可能なデジタルテキストに変換する。 物理的な文字とデジタルデータの隔たりを埋めることで、OCRは人工知能(AI)システムが従来は静的なピクセルに閉じ込められていた情報を「読み取り」処理することを可能にします。初期のOCRは厳密なパターンマッチングに依存していましたが、現代のOCRは高度な深層学習アルゴリズムを活用し、多様なフォント、手書きスタイル、ノイズの多い背景を高い精度で処理します。

OCRパイプライン

現代のOCRシステムは通常、多段階のパイプラインとして機能し、生の画像データを構造化された情報へと変換する。このプロセスは複数の機械学習分野を統合している。

  • 画像前処理:テキストを読み取る前に、生の入力データは品質向上のため前処理が施されるしきい値処理(画像を白黒の二値画像に変換)やノイズ低減といった技術により、文字の筆画を背景から分離しやすくする。
  • テキスト検出:この重要なステップでは、画像内のテキストを含む特定領域を特定します。最先端Ultralytics などの高性能オブジェクト検出モデルが頻繁に採用され、単語や行の周囲に境界ボックスを描画します。この位置特定により、システムは非テキストの視覚要素を無視し、関連領域のみに焦点を当てることが可能となります。
  • 文字認識:位置特定された画像セグメントは認識モデルに供給される。 特徴抽出のための畳み込みニューラルネットワーク(CNN)と シーケンスモデリングのための再帰型ニューラルネットワーク(RNN)を組み合わせたアーキテクチャは、 ピクセルパターンを文字列に変換する標準的な手法である。
  • 後処理:最終出力は通常、 自然言語処理(NLP) 技術を用いて精緻化される。語彙集と言語モデルはスペルミスの修正や、認識されたテキストの意味的妥当性を保証し、 全体的な精度向上に寄与する。

実際のアプリケーション

OCRが他のAI分野と統合されたことで、さまざまな業界で自動化が広がっている。

自動ナンバープレート認識(ANPR)

スマートシティインフラにおいて、OCRは自動ナンバープレート認識の基盤技術である。まずオブジェクト検出器が映像フレーム内の車両とナンバープレートを識別する。その後、OCRアルゴリズムが英数字を抽出し、料金徴収やセキュリティ監視のためにデータベースと照合する。この処理には高速交通データを効果的に処理するためのリアルタイム推論能力が求められる。

インテリジェント・ドキュメント・プロセッシング(IDP)

金融および法務分野では、スマートな文書分析のためにOCRを活用しています。手動でのデータ入力に代わり、AIシステムが請求書、領収書、契約書をスキャンします。OCRと固有表現認識(NER)を組み合わせることで、これらのシステムは日付、ベンダー名、総額などの特定フィールドを自動的に抽出でき、管理業務の負担を大幅に軽減します。

OCRと関連用語の区別

OCRと画像分類を区別することが重要です。画像分類は画像全体を分類する(例:画像を「文書」や「道路標識」とラベル付けする)のに対し、OCRは細分化されており、画像内の特定の文字列を特定して識別します。 同様に、OCRは標準的な物体検出とも異なります。物体検出では「停止標識」を物体クラスとして検出する一方、OCRは標識上の文字「S-T-O-P」を読み取ります。

Ultralyticsによるテキスト検出

一般的なワークフローでは、YOLO を用いてdetect 領域detect 、認識エンジン(オープンソースのTesseract OCRエンジンなど)に渡します。以下の例は、事前学習済みモデルを読み込む方法を示しています。 Ultralytics YOLO11 モデルを読み込み、ナンバープレートや交通標識など テキストを含むdetect 。

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (often used to locate text regions)
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes which acts as the first step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

その他の資料

初期のOCR研究を牽引した基盤データセットを探るには、 手書き数字のMNIST 古典的な リソースである。技術の進化に関心のある者には、 Tesseractプロジェクトの歴史がオープンソースへの 貢献に関する洞察を提供する。Google Vision API やAmazon Textractといった現代のクラウドベースソリューションは、管理型OCRサービスの最先端技術である。さらに、シーンテキスト認識の研究は限界を押し広げ続け、制約のない「実環境」におけるテキストのAI読み取りを可能にしている。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加