YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

光学式文字認識(OCR)

AIとYOLO11を使用し、高速かつ正確にテキストを検出・抽出することで、OCRが画像やPDFを検索・編集可能なテキストに変換する方法をご覧ください。

光学式文字認識(OCR)は、スキャンした紙文書やPDF、デジタルカメラで撮影した画像など、さまざまな種類の文書を編集・検索可能なデータに変換する技術です。当初、印刷されたテキストを音声に変換することで視覚障害者を支援するために開発されたOCRは、さまざまな業界におけるデジタル変革の要へと発展しました。人工知能(AI)コンピュータ・ビジョンの進歩を活用することで、最新のOCRシステムは、幅広いフォント、言語、さらには手書きスタイルのテキストを驚くほどの精度で認識することができます。

光学式文字認識の仕組み

画像をデジタルテキストに変換するプロセスには、いくつかの重要な段階がある。ディープラーニングによって強化された最新のOCRパイプラインは、初期のテンプレートマッチングシステムよりもはるかに堅牢だ。

  • 画像の前処理:最初のステップは、ソース画像をクリーンアップし、その品質を向上させることです。明るさやコントラストの調整、ノイズの低減、画像の鮮明化などの技術を適用し、テキストをより鮮明に、検出しやすくします。この段階は、特に低品質のスキャン画像や、照明条件の悪い場所で撮影された画像を扱う場合には非常に重要です。
  • テキストの検出:文字を認識する前に、システムは画像内のテキストの位置を特定する必要があります。これは、Ultralytics YOLO11のような強力なオブジェクト検出モデルを使用して達成されることが多く、テキストブロック、行、または個々の単語を識別して分離することができます。
  • 文字認識:テキスト領域が検出されると、膨大な文字のデータセットで訓練されたニューラル・ネットワークが、それぞれの文字や数字を識別するために形やパターンを分析する。HPが開発し、現在はグーグルが保守しているオープンソースのTesseractエンジンのようなツールが活躍する場だ。
  • 後処理:最終段階では、認識した文字を構造化し、使用可能なテキストに変換する。これには、エラーを修正するための言語モデリングや、他のソフトウェアとの統合を容易にするためのJSONやXMLなどの特定のフォーマットへの出力フォーマットが含まれます。

OCRと関連するコンピュータ・ビジョン・タスク

OCRは高度に専門化された技術ですが、他のコンピュータ・ビジョン・タスクと密接に関連しています。その独自の役割を理解することが重要です。

OCRは広義の画像認識とは根本的に異なります。画像認識が画像内のオブジェクト、シーン、および顔を識別することを目的としているのに対し、OCRはもっぱらテキスト文字の解釈に焦点を当てています。しかし、これらの技術はしばしば一緒に機能します。例えば、あるアプリケーションは画像認識を使って道路標識を識別し、次にOCRを使ってその標識のテキストを読み取るかもしれません。同様に、文書分析では、OCRを適用して特定の情報を抽出する前に、まずオブジェクト検出モデルが署名や請求書番号の位置を特定します。

実際のアプリケーション

コンピュータ・ビジョンとOCRの組み合わせは、多くの分野で効率化と自動化を実現した。

  • 自動ナンバープレート認識(ANPR):交通管理および法執行において、ANPRシステムは物体検出モデルを使用して、まず画像またはビデオフィードから車両のナンバープレートを特定します。ナンバープレートが特定されると、OCR技術により英数字が読み取られ、データベース検索、料金徴収、盗難車追跡のために機械可読テキストに変換される。
  • 請求書と領収書の処理金融サービスや小売業界では、請求書、領収書、銀行取引明細書の処理を自動化するためにOCRを利用しています。コンピュータ・ビジョン・モデルは、請求書のベンダー名、日付、合計金額などの主要フィールドを検出することができます。その後、OCRはこれらの特定領域からテキストを抽出し、手作業によるデータ入力を排除してエラーを減らし、支払いサイクルを加速します。

その他の重要なアプリケーションには、保存や研究のための歴史的アーカイブのデジタル化、医療における患者記録管理の合理化、パスポートやIDカードからデータを抽出することによる本人確認の実現などがある。EasyOCRや PaddleOCRのような人気のあるオープンソースのライブラリは、開発者がアプリケーションに統合するために、この技術をより身近なものにしました。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました