Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Оптическое распознавание символов (OCR)

Узнайте, как оптическое распознавание символов (OCR) преобразует изображения в данные, доступные для поиска. Научитесь создавать конвейеры OCR с помощью Ultralytics для обнаружения текста.

Оптическое распознавание символов (OCR) — это ключевая технология в области компьютерного зрения, которая позволяет преобразовывать различные типы документов, такие как отсканированные бумажные документы, файлы PDF или изображения, снятые цифровой камерой, в редактируемые и доступные для поиска данные. Преобразуя визуальные представления текста в машинно-кодированные символы, OCR преодолевает разрыв между физическим и цифровым мирами, позволяя системам искусственного интеллекта (ИИ) интерпретировать и обрабатывать текстовую информацию, которая ранее была заблокирована в статических пикселях. В то время как ранние версии OCR опирались на простое сопоставление шаблонов с сохраненными образцами, современные системы используют сложные архитектуры глубокого обучения для обработки различных шрифтов, сложных макетов и даже рукописного текста с высокой точностью.

Трубопровод OCR

Современные системы OCR обычно функционируют как многоступенчатый конвейер, преобразуя необработанные данные изображения в структурированную информацию посредством нескольких отдельных шагов. Этот процесс часто сочетает в себе стандартную обработку изображений с передовыми нейронными сетями.

  • Предварительная обработка изображений: перед распознаванием текста исходные данные проходят предварительную обработку для улучшения качества. Такие методы, как пороговое значение, преобразуют изображения в двоичные черно-белые, а шумоподавление помогает выделить штрихи символов из зашумленного фона.
  • Обнаружение текста: этот важный этап включает в себя поиск определенных областей изображения, содержащих текст. Для этого часто используются высокопроизводительные модели обнаружения объектов, такие как современная Ultralytics , которые обводят слова, строки или абзацы ограничительными рамками. Такая локализация позволяет последующему механизму распознавания сосредоточиться только на соответствующих областях.
  • Распознавание текста: после вырезания областей текста они поступают в модель распознавания. Архитектуры, сочетающие сверточные нейронные сети (CNN) для извлечения признаков и рекуррентные нейронные сети (RNN) для моделирования последовательностей, являются стандартом для декодирования пиксельных шаблонов в последовательности символов.
  • Постобработка: конечный результат часто дорабатывается с помощью методов обработки естественного языка (NLP) . Лексиконы и языковые модели помогают исправлять орфографические ошибки и обеспечивают семантическую согласованность распознанного текста, что значительно повышает общую точность.

Применение в реальном мире

Интеграция OCR с другими дисциплинами искусственного интеллекта привела к широкой автоматизации в различных отраслях промышленности, изменив подход предприятий к обработке данных.

Автоматическое распознавание номерных знаков (ANPR)

В инфраструктуре умного города OCR выступает в качестве основного двигателя автоматического распознавания номерных знаков. Сначала детектор объектов идентифицирует автомобиль и номерной знак в кадре видео. Затем алгоритмы OCR извлекают буквенно-цифровые символы для перекрестной проверки с базами данных для автоматического сбора платы за проезд или мониторинга безопасности. Это требует надежных возможностей вывода в реальном времени для эффективной обработки высокоскоростных данных о трафике.

Интеллектуальная обработка документов (IDP)

Финансовый и юридический секторы используют OCR для интеллектуального анализа документов. Вместо ручного ввода данных системы искусственного интеллекта сканируют счета, квитанции и контракты. Благодаря сочетанию OCR с распознаванием именованных сущностей (NER) эти системы могут автоматически извлекать определенные поля, такие как даты, названия поставщиков и общие суммы, что сокращает административные расходы и ускоряет рабочие процессы.

Отличие OCR от смежных терминов

Важно отличать OCR от классификации изображений. В то время как классификация изображений категоризирует все изображение (например, помечая изображение как «документ» или «счет»), OCR является более детализированным: он находит и идентифицирует конкретную последовательность символов в этом изображении. Аналогичным образом, OCR отличается от стандартного обнаружения объектов, которое может идентифицировать «знак остановки» как общий класс объектов, тогда как OCR прочитает конкретные буквы «S-T-O-P», напечатанные на знаке.

Обнаружение текста с помощью Ultralytics

Обычный современный рабочий процесс включает использование YOLO для detect областей detect перед их передачей в специальный механизм распознавания, такой как Tesseract или PaddleOCR. Ultralytics упрощает обучение этих моделей обнаружения на пользовательских наборах данных. В следующем примере показано, как использовать предварительно обученную модель Ultralytics для detect , которые обычно содержат текст, таких как номерные знаки.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")
    # Further processing would pass these crops to an OCR engine

Дополнительное чтение и ресурсы

Для изучения базовых наборов данных, которые легли в основу ранних исследований в области OCR, MNIST с рукописными цифрами остается классическим ресурсом для сравнительного анализа. Для тех, кто интересуется развитием этой технологии на основе открытого исходного кода, история проекта Tesseract дает представление о вкладе сообщества. Современные облачные решения, такие как Google Vision API и Amazon Textract, представляют собой передовые технологии в области управляемых OCR- сервисов. Кроме того, исследования в области распознавания текста в сцене продолжают расширять границы, позволяя ИИ читать текст в неограниченных, «диких» средах, где освещение и перспектива варьируются.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас