Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Оптическое распознавание символов (OCR)

Узнайте, как OCR преобразует изображения и PDF-файлы в редактируемый текст с возможностью поиска, используя искусственный интеллект и YOLO11 для быстрого и точного обнаружения и извлечения текста.

Оптическое распознавание символов (OCR) — это базовая технология в области компьютерного зрения, которая преобразует визуальные представления текста, такие как отсканированные документы, файлы PDF или изображения дорожных знаков, в машинно-кодированный, редактируемый цифровой текст. Устраняя разрыв между физическим текстом и цифровыми данными, OCR позволяет системам искусственного интеллекта (ИИ) «читать» и обрабатывать информацию, которая ранее была заперта в статических пикселях. В то время как ранние версии полагались на жесткое сопоставление шаблонов, современные системы OCR используют сложные алгоритмы глубокого обучения для обработки различных шрифтов, стилей рукописного текста и фоновых помех с высокой точностью.

Трубопровод OCR

Современные системы OCR обычно функционируют как многоступенчатый конвейер, преобразующий необработанные данные изображения в структурированную информацию. Этот процесс объединяет несколько дисциплин машинного обучения.

  • Предварительная обработка изображений: прежде чем текст может быть прочитан, исходные данные проходят предварительную обработку для улучшения качества. Такие методы, как пороговое значение (преобразование изображений в бинарные черно-белые) и шумоподавление, помогают выделить штрихи символов из фона.
  • Обнаружение текста: этот важный этап включает в себя определение конкретных областей изображения, которые содержат текст. Высокопроизводительные модели обнаружения объектов, такие как современная Ultralytics , часто используются здесь для рисования ограничительных рамок вокруг слов или строк. Эта локализация позволяет системе сосредоточиться только на соответствующих областях, игнорируя визуальные элементы, не являющиеся текстом.
  • Распознавание текста: после локализации сегменты изображения поступают в модель распознавания. Архитектуры, сочетающие сверточные нейронные сети (CNN) для извлечения признаков и рекуррентные нейронные сети (RNN) для моделирования последовательностей, являются стандартными для декодирования пиксельных шаблонов в последовательности символов.
  • Постобработка: конечный результат часто дорабатывается с помощью методов обработки естественного языка (NLP) . Лексиконы и языковые модели помогают исправлять орфографические ошибки и обеспечивают семантическую вероятность распознанного текста, повышая общую точность.

Применение в реальном мире

Интеграция OCR с другими дисциплинами ИИ привела к повсеместной автоматизации в различных отраслях.

Автоматическое распознавание номерных знаков (ANPR)

В инфраструктуре умного города OCR является движущей силой автоматического распознавания номерных знаков. Сначала детектор объектов идентифицирует автомобиль и номерной знак в кадре видео. Затем алгоритмы OCR извлекают буквенно-цифровые символы для перекрестной проверки с базами данных для сбора платы за проезд или мониторинга безопасности. Это требует возможности вывода в реальном времени для эффективной обработки высокоскоростных данных о трафике.

Интеллектуальная обработка документов (IDP)

Финансовый и юридический секторы используют OCR для интеллектуального анализа документов. Вместо ручного ввода данных системы искусственного интеллекта сканируют счета, квитанции и контракты. Благодаря сочетанию OCR с распознаванием именованных сущностей (NER) эти системы могут автоматически извлекать определенные поля, такие как даты, названия поставщиков и общие суммы, что значительно сокращает административные расходы.

Отличие OCR от смежных терминов

Важно отличать OCR от классификации изображений. В то время как классификация изображений категоризирует все изображение (например, помечая изображение как «документ» или «уличный знак»), OCR является более детализированным: он находит и идентифицирует конкретную последовательность символов в этом изображении. Точно так же OCR отличается от стандартного обнаружения объектов, которое может найти «знак остановки» как класс объектов, тогда как OCR прочитает буквы «S-T-O-P» на знаке.

Обнаружение текста с помощью Ultralytics

В обычном рабочем процессе используется YOLO для detect областей detect перед их передачей в механизм распознавания (например, механизм распознавания текста Tesseract с открытым исходным кодом). В следующем примере показано, как загрузить предварительно обученную модель Ultralytics YOLO11 для detect , которые обычно содержат текст, таких как номерные знаки или дорожные знаки.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (often used to locate text regions)
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes which acts as the first step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

Дополнительное чтение и ресурсы

Для изучения базовых наборов данных, которые легли в основу ранних исследований в области OCR, классическим ресурсом является MNIST , содержащая рукописные цифры. Для тех, кто интересуется эволюцией этой технологии, история проекта Tesseract дает представление о вкладе открытых источников . Современные облачные решения, такие как Google Vision API и Amazon Textract, представляют собой передовые технологии в области управляемых OCR- сервисов. Кроме того, исследования в области распознавания текста в сцене продолжают расширять границы, позволяя ИИ читать текст в неограниченных, «диких» средах.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас