Yolo 深圳
深セン
今すぐ参加
用語集

光学式文字認識(OCR)

AIとYOLO11 使用し、高速かつ正確にテキストを検出・抽出することで、OCRが画像やPDFを検索・編集可能なテキストに変換する方法をご覧ください。

光学式文字認識(OCR)は、コンピュータ・ビジョンの中でも極めて重要な技術である。 コンピュータ・ビジョンの中でも極めて重要な技術である。 スキャンした紙文書、PDFファイル、デジタルカメラで撮影した画像など、さまざまな種類の文書を編集可能で検索可能なデータに変換する、コンピュータ・ビジョンの中でも極めて重要な技術である。 検索可能なデータに変換する。物理的な紙とデジタルデータとのギャップを埋めることで、OCRは機械がテキストを「読み取り」、検索可能なデータに変換することを可能にする。 OCRは、物理的な紙とデジタルデータのギャップを埋めることで、歴史的に人間の能力に限られていた方法で、機械がテキストを「読み取り」、処理することを可能にする。初期のものは単純なパターンマッチングに頼っていたが パターンマッチングに頼っていたが、最新のOCRは高度な機械学習と 機械学習と ディープラーニング・アルゴリズムを活用し、複雑なフォント 手書き文字、ノイズの多い背景などを驚くほど正確に処理します。

現代のOCRのメカニズム

現代のOCRシステムは、生の視覚入力を構造化された情報に変換する多段階のパイプラインとして機能する。 情報に変換する。このプロセスは、厳格なテンプレートマッチングから、柔軟なAI主導のアプローチへと大きく進化しています。

実際のAIアプリケーション

OCRが他のAI分野と統合されたことで、さまざまな業界で自動化が広がっている。

自動ナンバープレート認識(ANPR)

スマートシティのインフラでは、OCRがそのエンジンとなっている。 自動ナンバープレート認識。まず物体検出器がビデオフレーム内の車両とナンバープレートを識別します。その後、OCR アルゴリズムが英数字を抽出し、料金徴収やセキュリティ監視のためのデータベースと照合する。 セキュリティ監視のためのデータベースと照合する。そのためには リアルタイム推論機能 高速交通データを処理するリアルタイム推論機能が必要である。

インテリジェント・ドキュメント・プロセッシング(IDP)

金融・法律分野ではOCRを活用し 活用しています。手作業によるデータ入力の代わりに、AIシステムが請求書、領収書、契約書をスキャンします。OCRと を組み合わせることで、これらのシステムは日付、ベンダー名、契約書などの特定のフィールドを自動的に抽出することができる。 システムは、日付、ベンダー名、合計金額などの特定のフィールドを自動的に抽出し、管理オーバーヘッドと推論のレイテンシーを大幅に削減することができます。 管理オーバーヘッドと推論レイテンシーを大幅に削減します。

OCRと画像分類の比較

OCRを画像分類と区別することは重要である。 画像分類と区別することが重要です。画像 画像分類が画像全体を分類するのに対して(例えば、画像を「文書」や「道路標識」とラベリングする)、OCRは粒度が細かい。 画像分類は画像全体を分類する(例えば、画像に "文書 "や "道路標識 "といったラベルを付ける)のに対し、OCRは粒度が細かく、画像内の特定の文字列を探し出し、識別します。 画像内の特定の文字列を特定します。同様に、OCRは標準的なオブジェクト検出とは異なります、 OCRが標識上の文字 "S-T-O-P "を読み取るのに対し、標準的なオブジェクト検出とは異なります。 を読み取ります。

YOLO11テキスト検出の実装

一般的なワークフローでは、認識エンジン(オープンソースのTesseract OCRエンジンのような)に渡す前に、YOLO モデルを使用してテキスト領域をdetect します。 オープンソースのTesseract OCRエンジンのような)に渡す前に、YOLOモデルを使用してテキスト領域を検出します。次の例は は、ナンバープレートや交通標識など、通常テキストを含むオブジェクトをdetect するために、事前に訓練されたモデルをロードする方法を示しています。 交通標識などです。

from ultralytics import YOLO

# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)

# Display the detected class names (e.g., 'stop sign')
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

その他の資料

初期のOCR研究の原動力となった基礎的なデータセットを探るために 手書き数字のMNIST データベース は古典的なリソースです。技術の進化に興味のある方は、Tesseractプロジェクトの歴史をご覧ください。 Tesseractプロジェクトの歴史は、オープンソースによる の貢献について知ることができる。最新のクラウドベースのソリューション Google Cloud Vision APIAmazon Textractのような最新のクラウドベースのソリューションは、管理されたOCRサービスにおける現在の最先端を表している。 サービスの現在の最先端を表している。さらに、シーンテキスト認識の研究も続いている。 AIが制約のない「野生の」環境でテキストを読み取ることを可能にする。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加