Узнайте, как OCR преобразует изображения и PDF-файлы в редактируемый текст с возможностью поиска, используя искусственный интеллект и YOLO11 для быстрого и точного обнаружения и извлечения текста.
Оптическое распознавание символов (OCR) — это базовая технология в области компьютерного зрения, которая преобразует визуальные представления текста, такие как отсканированные документы, файлы PDF или изображения дорожных знаков, в машинно-кодированный, редактируемый цифровой текст. Устраняя разрыв между физическим текстом и цифровыми данными, OCR позволяет системам искусственного интеллекта (ИИ) «читать» и обрабатывать информацию, которая ранее была заперта в статических пикселях. В то время как ранние версии полагались на жесткое сопоставление шаблонов, современные системы OCR используют сложные алгоритмы глубокого обучения для обработки различных шрифтов, стилей рукописного текста и фоновых помех с высокой точностью.
Современные системы OCR обычно функционируют как многоступенчатый конвейер, преобразующий необработанные данные изображения в структурированную информацию. Этот процесс объединяет несколько дисциплин машинного обучения.
Интеграция OCR с другими дисциплинами ИИ привела к повсеместной автоматизации в различных отраслях.
В инфраструктуре умного города OCR является движущей силой автоматического распознавания номерных знаков. Сначала детектор объектов идентифицирует автомобиль и номерной знак в кадре видео. Затем алгоритмы OCR извлекают буквенно-цифровые символы для перекрестной проверки с базами данных для сбора платы за проезд или мониторинга безопасности. Это требует возможности вывода в реальном времени для эффективной обработки высокоскоростных данных о трафике.
Финансовый и юридический секторы используют OCR для интеллектуального анализа документов. Вместо ручного ввода данных системы искусственного интеллекта сканируют счета, квитанции и контракты. Благодаря сочетанию OCR с распознаванием именованных сущностей (NER) эти системы могут автоматически извлекать определенные поля, такие как даты, названия поставщиков и общие суммы, что значительно сокращает административные расходы.
Важно отличать OCR от классификации изображений. В то время как классификация изображений категоризирует все изображение (например, помечая изображение как «документ» или «уличный знак»), OCR является более детализированным: он находит и идентифицирует конкретную последовательность символов в этом изображении. Точно так же OCR отличается от стандартного обнаружения объектов, которое может найти «знак остановки» как класс объектов, тогда как OCR прочитает буквы «S-T-O-P» на знаке.
В обычном рабочем процессе используется YOLO для detect областей detect перед их передачей в механизм распознавания (например, механизм распознавания текста Tesseract с открытым исходным кодом). В следующем примере показано, как загрузить предварительно обученную модель Ultralytics YOLO11 для detect , которые обычно содержат текст, таких как номерные знаки или дорожные знаки.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model (often used to locate text regions)
model = YOLO("yolo11n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")
# Display detected classes which acts as the first step in an OCR pipeline
for r in results:
print(f"Detected classes: {r.boxes.cls}")
Для изучения базовых наборов данных, которые легли в основу ранних исследований в области OCR, классическим ресурсом является MNIST , содержащая рукописные цифры. Для тех, кто интересуется эволюцией этой технологии, история проекта Tesseract дает представление о вкладе открытых источников . Современные облачные решения, такие как Google Vision API и Amazon Textract, представляют собой передовые технологии в области управляемых OCR- сервисов. Кроме того, исследования в области распознавания текста в сцене продолжают расширять границы, позволяя ИИ читать текст в неограниченных, «диких» средах.