词汇表

光学字符识别 (OCR)

探索光学字符识别（OCR）如何将图像转化为可搜索数据。学习Ultralytics 构建OCR管道进行文本检测。

光学字符识别（OCR）是计算机视觉领域的一项关键技术，能够将不同类型的文档——如扫描纸质文件、PDF文件或数码相机拍摄的图像——转换为可编辑、可搜索的数据。通过将文本的视觉表现形式转化为机器编码字符，OCR 在物理世界与数字世界之间架起桥梁，使人工智能（AI）系统能够解读和处理此前被锁定在静态像素中的文本信息。早期OCR技术依赖于与存储模板进行简单模式匹配，而现代系统则运用复杂的深度学习架构，能够以高精度处理多样字体、复杂版式乃至手写文本。

OCR管道

当代OCR系统通常作为多阶段流水线运行，通过若干独立步骤将原始图像数据转化为结构化信息。该过程常将标准图像处理技术与先进神经网络相结合。

图像预处理：在进行文本识别前，原始输入数据需经过预处理以提升质量。阈值化等技术将图像转换为二进制黑白图像，而降噪处理则有助于从杂乱背景中分离出字符笔画。
文本检测：这一关键步骤涉及定位图像中包含文本的特定区域。常采用高性能目标检测模型（如顶尖Ultralytics ）在此处绘制包围单词、行或段落的边界框。这种定位使后续识别引擎能够仅聚焦于相关区域。
文本识别：裁剪后的文本区域会被输入到识别模型中。采用卷积神经网络（CNN）进行特征提取，结合循环神经网络（RNN）进行序列建模的架构，是将像素模式解码为字符序列的标准方案。
后处理：最终输出通常通过自然语言处理（NLP）技术进行优化。词典和语言模型有助于纠正拼写错误，确保识别文本在语义上保持一致，从而显著提升整体准确性。

实际应用

OCR技术与其他人工智能领域的融合，推动了各行业的广泛自动化进程，彻底改变了企业处理数据的方式。

自动车牌识别 (ANPR)

在智慧城市基础设施中，OCR技术是自动车牌识别系统背后的核心引擎。物体检测器首先在视频帧中识别车辆及车牌，随后OCR算法提取字母数字字符，并与数据库进行交叉比对，实现自动收费或安全监控。这需要强大的实时推理能力，才能高效处理高速交通数据。

智能文件处理（IDP）

金融与法律行业运用OCR技术实现智能文档分析。人工智能系统可自动扫描发票、收据及合同，取代人工数据录入。通过将OCR与命名实体识别（NER）技术结合，这些系统能自动提取日期、供应商名称、总金额等特定字段，从而降低行政成本并加速工作流程。

区分OCR与相关术语

区分OCR与图像分类至关重要。图像分类是对整张图像进行归类（例如将图像标记为"文档"或"发票"），而OCR具有精细性——它能定位并识别图像中特定的字符序列。同样地， OCR与标准目标检测技术存在差异：后者可能将"停车标志"识别为通用物体类别，而OCR则能读取标志上印制的具体字母 "S-T-O-P"。

Ultralytics文本检测

现代常见的工作流程是先使用YOLO detect 区域，再将其传递给Tesseract或PaddleOCR等专用识别引擎。Ultralytics 简化了在自定义数据集上训练这些检测模型的过程。以下示例演示了如何使用Ultralytics 模型detect 通常包含文本的detect （如车牌）。

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")
    # Further processing would pass these crops to an OCR engine

光学字符识别 (OCR)

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

OCR管道

实际应用

自动车牌识别 (ANPR)

智能文件处理（IDP）

区分OCR与相关术语

Ultralytics文本检测

更多阅读和资源

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

什么是单目深度估计？概述

Ultralytics YOLO 进行人工智能威胁检测

加入Ultralytics 社区