遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Optical Character Recognition (OCR)

探索光学字符识别 (OCR) 如何将图像转换为可搜索的数据。学习使用 Ultralytics YOLO26 构建 OCR 流水线进行文本检测。

光学字符识别 (OCR) 是计算机视觉领域的一项关键技术,它能够将各种类型的文档(例如扫描纸质文档、PDF 文件或数码相机拍摄的图像)转换为可编辑和可搜索的数据。通过将文字的视觉表现形式转换为机器编码字符,OCR 架起了物理世界与数字世界之间的桥梁,使人工智能 (AI) 系统能够解释和处理以前锁定在静态像素中的文本信息。虽然早期版本的 OCR 依赖于与存储模板进行简单的模式匹配,但现代系统利用复杂的深度学习架构来以高精度处理各种字体、复杂的布局,甚至手写内容。

Link to this sectionOCR 流水线#

当代 OCR 系统通常作为多阶段流水线运行,通过几个不同的步骤将原始图像数据转换为结构化信息。此过程通常将标准图像处理与先进的神经网络相结合。

  • 图像预处理:在识别文本之前,原始输入需要经过数据预处理以提高质量。阈值化等技术将图像转换为黑白二值图像,而降噪则有助于将字符笔画与杂乱的背景区分开来。
  • 文本检测:这一关键步骤涉及定位图像中包含文本的特定区域。高性能目标检测模型(例如最先进的 Ultralytics YOLO26)经常被用于此,在单词、行或段落周围绘制边界框。这种定位使得随后的识别引擎能够仅专注于相关区域。
  • 文本识别:一旦文本区域被裁剪出来,它们就会被输入识别模型。将用于特征提取的卷积神经网络 (CNN) 和用于序列建模的循环神经网络 (RNN) 相结合的架构是解码像素模式为字符序列的标准方法。
  • 后处理:最终输出通常会使用自然语言处理 (NLP) 技术进行优化。词典和语言模型有助于纠正拼写错误并确保识别出的文本在语义上是一致的,从而显著提高整体准确率

Link to this section实际应用#

OCR 与其他 AI 学科的集成推动了各行各业的广泛自动化,改变了企业处理数据的方式。

Link to this section自动车牌识别 (ANPR)#

在智慧城市基础设施中,OCR 是自动车牌识别背后的核心引擎。目标检测器首先会在视频帧中识别车辆和车牌。随后,OCR 算法提取字母数字字符,以便与数据库进行交叉比对,用于自动收费或安全监控。这需要强大的实时推理能力才能有效处理高速交通数据。

Link to this section智能文档处理 (IDP)#

金融和法律部门利用 OCR 进行智能文档分析。AI 系统无需手动输入数据,即可扫描发票、收据和合同。通过将 OCR 与命名实体识别 (NER) 相结合,这些系统可以自动提取日期、供应商名称和总金额等特定字段,从而减少管理负担并加快工作流程。

Link to this section区分 OCR 与相关术语#

区分 OCR 与图像分类非常重要。虽然图像分类对整个图像进行分类(例如,将图像标记为“文档”或“发票”),但 OCR 是细粒度的;它定位并识别图像特定的字符序列。同样,OCR 不同于标准的目标检测,后者可能将“停车标志”识别为常规目标类别,而 OCR 则会读取标志上印有的特定字母“S-T-O-P”。

Link to this section使用 Ultralytics 进行文本检测#

一个常见的现代工作流程是使用 YOLO 模型检测文本区域,然后再将其传递给 Tesseract 或 PaddleOCR 等专用识别引擎。Ultralytics Platform 简化了在自定义数据集上训练这些检测模型的过程。以下示例演示了如何使用预训练的 Ultralytics YOLO26 模型来检测通常包含文本的对象,例如车牌。

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")
    # Further processing would pass these crops to an OCR engine

Link to this section延伸阅读与资源#

To explore the foundational datasets that drove early OCR research, the MNIST database of handwritten digits remains a classic resource for benchmarking. For those interested in the open-source evolution of the technology, the history of the Tesseract project provides insight into community-driven contributions. Modern cloud-based solutions like Google Cloud Vision API and Amazon Textract represent the current state-of-the-art in managed OCR services. Additionally, research into Scene Text Recognition continues to push boundaries, enabling AI to read text in unconstrained, "wild" environments where lighting and perspective vary.

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅