Узнайте, как оптическое распознавание символов (OCR) преобразует изображения в данные, доступные для поиска. Научитесь создавать конвейеры OCR с помощью Ultralytics для обнаружения текста.
Оптическое распознавание символов (OCR) — это ключевая технология в области компьютерного зрения, которая позволяет преобразовывать различные типы документов, такие как отсканированные бумажные документы, файлы PDF или изображения, снятые цифровой камерой, в редактируемые и доступные для поиска данные. Преобразуя визуальные представления текста в машинно-кодированные символы, OCR преодолевает разрыв между физическим и цифровым мирами, позволяя системам искусственного интеллекта (ИИ) интерпретировать и обрабатывать текстовую информацию, которая ранее была заблокирована в статических пикселях. В то время как ранние версии OCR опирались на простое сопоставление шаблонов с сохраненными образцами, современные системы используют сложные архитектуры глубокого обучения для обработки различных шрифтов, сложных макетов и даже рукописного текста с высокой точностью.
Современные системы OCR обычно функционируют как многоступенчатый конвейер, преобразуя необработанные данные изображения в структурированную информацию посредством нескольких отдельных шагов. Этот процесс часто сочетает в себе стандартную обработку изображений с передовыми нейронными сетями.
Интеграция OCR с другими дисциплинами искусственного интеллекта привела к широкой автоматизации в различных отраслях промышленности, изменив подход предприятий к обработке данных.
В инфраструктуре умного города OCR выступает в качестве основного двигателя автоматического распознавания номерных знаков. Сначала детектор объектов идентифицирует автомобиль и номерной знак в кадре видео. Затем алгоритмы OCR извлекают буквенно-цифровые символы для перекрестной проверки с базами данных для автоматического сбора платы за проезд или мониторинга безопасности. Это требует надежных возможностей вывода в реальном времени для эффективной обработки высокоскоростных данных о трафике.
Финансовый и юридический секторы используют OCR для интеллектуального анализа документов. Вместо ручного ввода данных системы искусственного интеллекта сканируют счета, квитанции и контракты. Благодаря сочетанию OCR с распознаванием именованных сущностей (NER) эти системы могут автоматически извлекать определенные поля, такие как даты, названия поставщиков и общие суммы, что сокращает административные расходы и ускоряет рабочие процессы.
Важно отличать OCR от классификации изображений. В то время как классификация изображений категоризирует все изображение (например, помечая изображение как «документ» или «счет»), OCR является более детализированным: он находит и идентифицирует конкретную последовательность символов в этом изображении. Аналогичным образом, OCR отличается от стандартного обнаружения объектов, которое может идентифицировать «знак остановки» как общий класс объектов, тогда как OCR прочитает конкретные буквы «S-T-O-P», напечатанные на знаке.
Обычный современный рабочий процесс включает использование YOLO для detect областей detect перед их передачей в специальный механизм распознавания, такой как Tesseract или PaddleOCR. Ultralytics упрощает обучение этих моделей обнаружения на пользовательских наборах данных. В следующем примере показано, как использовать предварительно обученную модель Ultralytics для detect , которые обычно содержат текст, таких как номерные знаки.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")
# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
print(f"Detected classes: {r.boxes.cls}")
# Further processing would pass these crops to an OCR engine
Для изучения базовых наборов данных, которые легли в основу ранних исследований в области OCR, MNIST с рукописными цифрами остается классическим ресурсом для сравнительного анализа. Для тех, кто интересуется развитием этой технологии на основе открытого исходного кода, история проекта Tesseract дает представление о вкладе сообщества. Современные облачные решения, такие как Google Vision API и Amazon Textract, представляют собой передовые технологии в области управляемых OCR- сервисов. Кроме того, исследования в области распознавания текста в сцене продолжают расширять границы, позволяя ИИ читать текст в неограниченных, «диких» средах, где освещение и перспектива варьируются.