Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Оптическое распознавание символов (OCR)

Узнайте, как OCR преобразует изображения и PDF-файлы в редактируемый текст с возможностью поиска, используя искусственный интеллект и YOLO11 для быстрого и точного обнаружения и извлечения текста.

Оптическое распознавание символов (OCR) - это ключевая технология в рамках компьютерного зрения, которая преобразует различные типы документы, такие как отсканированные бумажные документы, PDF-файлы или изображения, полученные с помощью цифровой камеры, в редактируемые и редактируемые и доступные для поиска данные. Преодолевая разрыв между физической бумагой и цифровыми данными, OCR позволяет машинам "читать" и обрабатывать текст таким образом, который исторически был ограничен возможностями человека. Если в ранних версиях системы использовалось простое сопоставление образцов, современные OCR используют передовые технологии машинное обучение и алгоритмы глубокого обучения для работы со сложными шрифтами, почерка и шумного фона с удивительной точностью.

Механика современного OCR

Современные системы OCR функционируют как многоступенчатый конвейер, который преобразует необработанный визуальный ввод в структурированную информацию. Этот процесс значительно эволюционировал от жесткого сопоставления шаблонов до гибких подходов, основанных на искусственном интеллекте.

Применение ИИ в реальном мире

Интеграция OCR с другими дисциплинами ИИ привела к повсеместной автоматизации в различных отраслях.

Автоматическое распознавание номерных знаков (ANPR)

В инфраструктуре "умного города" OCR является движущей силой. Автоматизированное распознавание номерных знаков. Сначала детектор объектов идентифицирует автомобиль и номерной знак в кадре видео. Затем алгоритмы OCR алгоритмы извлекают буквенно-цифровые символы, чтобы сопоставить их с базами данных для сбора платы за проезд или контроля безопасности. Для этого требуется возможности обработки умозаключений в режиме реального времени для обработки высокоскоростных данных о дорожном движении.

Интеллектуальная обработка документов (IDP)

Финансовый и юридический секторы используют OCR для интеллектуального анализа документов. Вместо ручного ввода данных системы искусственного интеллекта сканируют счета, квитанции и договоры. Комбинируя OCR с Распознавание именованных сущностей (NER), эти системы системы могут автоматически извлекать конкретные поля, такие как даты, имена продавцов и общие суммы, что значительно сокращает административные накладные расходы и время ожидания вывода.

OCR по сравнению с классификацией изображений

Важно отличать OCR от классификации изображений. В то время как классификация изображений классификация изображений классифицирует все изображение (например, обозначая его как "документ" или "уличный знак"), OCR является гранулярным; он находит и идентифицирует конкретную последовательность символов в этом изображении. изображения. Точно так же OCR отличается от стандартного обнаружения объектов, который может обнаружить "знак "Стоп"" как класс объекта, в то время как OCR прочитает буквы "S-T-O-P" на на знаке.

Реализация распознавания текста с помощью YOLO11

В обычном рабочем процессе модель YOLO используется для detect областей текста перед передачей их механизму распознавания (например, механизму открытый механизм распознавания Tesseract OCR). Следующий пример демонстрирует, как загрузить предварительно обученную модель для detect объектов, которые обычно содержат текст, например номерных знаков или дорожные знаки.

from ultralytics import YOLO

# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)

# Display the detected class names (e.g., 'stop sign')
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

Дополнительное чтение и ресурсы

Чтобы изучить основополагающие наборы данных, на которых основывались первые исследования в области OCR, мы используем базу данных MNIST. база данных рукописных цифрMNIST является классическим ресурсом. Для тех, кто интересуется развитием технологии, история проекта История проекта Tesseract дает представление о вкладе открытого исходного кода вклад. Современные облачные решения, такие как Google Cloud Vision API и Amazon Textract, представляют собой современный уровень управляемых OCR-сервисов. сервисов. Кроме того, исследования в области распознавания текста на сцене продолжают расширяют границы, позволяя ИИ читать текст в неограниченных, "диких" условиях.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас