敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

光学字符识别 (OCR)

了解 OCR 如何利用人工智能和 YOLO11 将图像和 PDF 转换为可搜索、可编辑的文本,从而实现快速、准确的文本检测和提取。

光学字符识别(OCR)是一种将不同类型的文档(如扫描的纸质文档、PDF 或数码相机拍摄的图像)转换为可编辑和可搜索数据的技术。OCR 最初是为了帮助视障人士将印刷文本转化为语音而开发的,如今已发展成为各行各业数字化转型的基石。通过利用人工智能(AI)计算机视觉的进步,现代 OCR 系统可以识别各种字体、语言甚至手写体的文本,而且准确度极高。

光学字符识别的工作原理

将图像转换为数字文本的过程涉及几个关键阶段。通过深度学习增强的现代 OCR 管道比早期的模板匹配系统要强大得多。

  • 图像预处理:第一步是清理和增强源图像,以提高其质量。采用调整亮度和对比度、减少噪点和锐化图像等技术,使文字更清晰、更容易识别。这一阶段至关重要,尤其是在处理低质量扫描或在光线条件较差的情况下拍摄的图像时。
  • 文本检测:在识别字符之前,系统必须确定文本在图像中的位置。这通常需要使用功能强大的对象检测模型来完成,例如Ultralytics YOLO11,它可以识别并分离出文本块、文本行或单个单词。
  • 字符识别:检测到文本区域后,在大量字符数据集上训练的神经网络会分析形状和模式,以识别每个字母和数字。这就是开源Tesseract 引擎等工具发挥作用的地方,该引擎最初由惠普开发,现在由谷歌维护。
  • 后期处理:最后阶段是将识别出的字符转换成结构化的可用文本。这可能包括语言建模以纠正错误,或将输出格式化为特定格式(如 JSON 或 XML)以方便与其他软件集成。

OCR 和相关计算机视觉任务

虽然 OCR 是一项高度专业化的技术,但它与其他计算机视觉任务密切相关。了解它的独特作用非常重要。

OCR 与广义的图像识别有着本质区别。图像识别的目的是识别图像中的物体、场景和人脸,而光学字符识别只专注于解释文本字符。不过,这些技术经常会一起工作。例如,应用程序可以使用图像识别来识别路牌,然后使用 OCR 来读取路牌上的文字。同样,在文档分析中,对象检测模型会首先识别签名或发票号码的位置,然后再应用 OCR 提取特定信息。

实际应用

计算机视觉和光学字符识别技术的结合为众多行业带来了效率和自动化。

  • 自动车牌识别(ANPR):在交通管理和执法中,ANPR 系统使用物体检测模型,首先在图像或视频馈送中定位车辆的车牌。一旦车牌被分离出来,OCR 技术就会读取字母数字字符,将其转换为机器可读文本,用于数据库查询、收费或跟踪被盗车辆。
  • 发票和收据处理:金融服务和零售行业依靠 OCR 自动处理发票、收据和银行对账单。计算机视觉模型可以检测发票上的供应商名称、日期和总金额等关键字段。随后,OCR 会从这些特定区域提取文本,从而消除人工数据输入、减少错误并加快付款周期。

其他重要应用还包括将历史档案数字化以用于保存和研究、简化医疗保健领域的病历管理,以及通过从护照和身份证中提取数据实现身份验证EasyOCRPaddleOCR等流行的开源库使开发人员更容易将这项技术集成到他们的应用程序中。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板