빠르고 정확한 텍스트 감지 및 추출을 위해 AI와 YOLO11 사용하여 이미지와 PDF를 검색 가능하고 편집 가능한 텍스트로 변환하는 OCR의 원리를 알아보세요.
광학 문자 인식(OCR)은 컴퓨터 비전의 중추적인 기술로 컴퓨터 비전의 핵심 기술입니다. 스캔한 종이 문서, PDF 파일 또는 디지털 카메라로 캡처한 이미지와 같은 문서를 편집 및 검색 가능한 검색 가능한 데이터로 변환합니다. OCR은 실제 종이와 디지털 데이터 사이의 간극을 메움으로써 기계가 텍스트를 "읽고" 과거에는 인간의 능력으로만 제한되었던 방식으로 텍스트를 처리할 수 있습니다. 초기에는 단순한 패턴 매칭에 의존했지만 단순한 패턴 매칭에 의존했지만, 최신 OCR은 고급 머신 러닝과 딥러닝 알고리즘을 활용하여 복잡한 글꼴을 처리합니다, 손글씨, 노이즈가 있는 배경을 놀라울 정도로 정밀하게 처리합니다.
최신 OCR 시스템은 원시 시각적 입력을 구조화된 정보로 변환하는 다단계 파이프라인으로 작동합니다. 정보로 변환하는 다단계 파이프라인으로 작동합니다. 이 프로세스는 경직된 템플릿 매칭에서 유연한 AI 기반 접근 방식으로 크게 발전했습니다.
OCR과 다른 AI 분야의 통합으로 다양한 산업 분야에서 광범위한 자동화가 이루어지고 있습니다.
스마트 시티 인프라에서 OCR은 다음을 지원하는 엔진입니다. 자동화된 번호판 인식. 물체 감지기가 먼저 비디오 프레임 내에서 차량과 번호판을 식별합니다. 그 후 OCR 알고리즘이 영숫자 문자를 추출하여 데이터베이스와 상호 참조하여 통행료 징수 또는 보안 모니터링을 위한 데이터베이스와 상호 참조합니다. 이를 위해서는 다음이 필요합니다. 처리할 실시간 추론 기능 실시간 추론 기능이 필요합니다.
금융 및 법률 분야에서는 다음과 같은 목적으로 OCR을 활용합니다. 스마트 문서 분석에 활용합니다. AI 시스템은 수동 데이터 입력 대신 송장, 영수증, 계약서를 스캔합니다. OCR과 네임드 엔티티 인식(NER)과 결합하여 시스템은 날짜, 공급업체 이름, 총액과 같은 특정 필드를 자동으로 추출하여 관리 오버헤드와 추론 지연 시간을 크게 줄일 수 있습니다.
OCR을 다음과 구별하는 것이 중요합니다. 이미지 분류와 구별하는 것이 중요합니다. 이미지 분류는 전체 이미지를 분류하지만(예: 이미지를 '문서' 또는 '거리 표지판 표지판" 등으로 분류하는 반면, OCR은 세분화되어 해당 이미지 내의 특정 문자 시퀀스를 찾아 식별합니다. 이미지. 마찬가지로 OCR은 표준 객체 감지와는 다릅니다, 객체 클래스로 "정지 표지판"을 찾을 수 있는 반면, OCR은 표지판의 "S-T-O-P" 문자를 읽습니다. 문자를 읽습니다.
일반적인 워크플로에서는 YOLO 모델을 사용하여 텍스트 영역을 detect 후 인식 엔진( 오픈 소스 테서랙트 OCR 엔진). 다음 예제 는 사전 학습된 모델을 로드하여 번호판이나 교통 표지판과 같이 일반적으로 텍스트가 포함된 객체를 detect 방법을 보여줍니다. 교통 표지판
from ultralytics import YOLO
# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)
# Display the detected class names (e.g., 'stop sign')
for r in results:
print(f"Detected classes: {r.boxes.cls}")
초기 OCR 연구의 원동력이 된 기초 데이터 세트를 살펴보기 위해 손으로 쓴 숫자에 대한MNIST 데이터베이스 는 대표적인 자료입니다. 기술의 진화에 관심이 있는 분들을 위해 테서랙트 프로젝트의 역사를 살펴보세요. 오픈소스에 대한 인사이트를 제공하는 테서랙트 프로젝트의 역사 기여에 대한 통찰력을 제공합니다. 다음과 같은 최신 클라우드 기반 솔루션 Google 클라우드 비전 API 및 Amazon Textract와 같은 최신 클라우드 기반 솔루션은 현재 관리형 OCR 서비스의 최신 기술을 대표합니다. 또한 장면 텍스트 인식에 대한 연구는 계속되고 있습니다. 한계를 뛰어넘어 AI가 제약이 없는 '야생' 환경에서도 텍스트를 읽을 수 있도록 지원합니다.