Yolo 비전 선전
선전
지금 참여하기
용어집

광학 문자 인식(OCR)

빠르고 정확한 텍스트 감지 및 추출을 위해 AI와 YOLO11 사용하여 이미지와 PDF를 검색 가능하고 편집 가능한 텍스트로 변환하는 OCR의 원리를 알아보세요.

광학 문자 인식(OCR)은 컴퓨터 비전의 중추적인 기술로 컴퓨터 비전의 핵심 기술입니다. 스캔한 종이 문서, PDF 파일 또는 디지털 카메라로 캡처한 이미지와 같은 문서를 편집 및 검색 가능한 검색 가능한 데이터로 변환합니다. OCR은 실제 종이와 디지털 데이터 사이의 간극을 메움으로써 기계가 텍스트를 "읽고" 과거에는 인간의 능력으로만 제한되었던 방식으로 텍스트를 처리할 수 있습니다. 초기에는 단순한 패턴 매칭에 의존했지만 단순한 패턴 매칭에 의존했지만, 최신 OCR은 고급 머신 러닝과 딥러닝 알고리즘을 활용하여 복잡한 글꼴을 처리합니다, 손글씨, 노이즈가 있는 배경을 놀라울 정도로 정밀하게 처리합니다.

최신 OCR의 메커니즘

최신 OCR 시스템은 원시 시각적 입력을 구조화된 정보로 변환하는 다단계 파이프라인으로 작동합니다. 정보로 변환하는 다단계 파이프라인으로 작동합니다. 이 프로세스는 경직된 템플릿 매칭에서 유연한 AI 기반 접근 방식으로 크게 발전했습니다.

  • 이미지 사전 처리: 텍스트를 읽기 전에 원시 입력은 품질을 개선하기 위해 데이터 전처리를 거쳐 품질을 개선합니다. 임계값 설정 및 노이즈 감소와 같은 기술은 배경에서 텍스트를 분리하는 데 도움이 됩니다.
  • 텍스트 감지: 이 중요한 단계에서는 이미지 내에서 텍스트가 포함된 특정 영역을 특정 영역을 찾는 것입니다. 고성능 개체 감지 모델 Ultralytics YOLO11와 같은 고성능 객체 감지 모델이 자주 사용되어 단어나 선 주위에 단어나 선 주위에 경계 상자를 그리는 데 자주 사용됩니다. 어수선한 장면에서도 자주 사용됩니다.
  • 텍스트 인식: 이미지 세그먼트가 현지화되면 이미지 세그먼트가 신경망에 입력됩니다. 아키텍처 결합 컨볼루션 신경망(CNN) 과 특징 추출을 위한 순환 신경망(RNN) 또는 시퀀스 모델링용 트랜스포머는 문자 시퀀스 디코딩을 위한 문자 시퀀스를 디코딩하는 데 표준으로 사용됩니다.
  • 포스트 프로세싱: 최종 출력은 다음을 사용하여 정제됩니다. 자연어 처리(NLP) 기술과 사전을 사용하여 맞춤법 오류를 수정하고 인식된 텍스트가 의미적으로 의미가 있는지 확인합니다.

실제 AI 애플리케이션

OCR과 다른 AI 분야의 통합으로 다양한 산업 분야에서 광범위한 자동화가 이루어지고 있습니다.

자동 번호판 인식(ANPR)

스마트 시티 인프라에서 OCR은 다음을 지원하는 엔진입니다. 자동화된 번호판 인식. 물체 감지기가 먼저 비디오 프레임 내에서 차량과 번호판을 식별합니다. 그 후 OCR 알고리즘이 영숫자 문자를 추출하여 데이터베이스와 상호 참조하여 통행료 징수 또는 보안 모니터링을 위한 데이터베이스와 상호 참조합니다. 이를 위해서는 다음이 필요합니다. 처리할 실시간 추론 기능 실시간 추론 기능이 필요합니다.

지능형 문서 처리(IDP)

금융 및 법률 분야에서는 다음과 같은 목적으로 OCR을 활용합니다. 스마트 문서 분석에 활용합니다. AI 시스템은 수동 데이터 입력 대신 송장, 영수증, 계약서를 스캔합니다. OCR과 네임드 엔티티 인식(NER)과 결합하여 시스템은 날짜, 공급업체 이름, 총액과 같은 특정 필드를 자동으로 추출하여 관리 오버헤드와 추론 지연 시간을 크게 줄일 수 있습니다.

OCR과 이미지 분류

OCR을 다음과 구별하는 것이 중요합니다. 이미지 분류와 구별하는 것이 중요합니다. 이미지 분류는 전체 이미지를 분류하지만(예: 이미지를 '문서' 또는 '거리 표지판 표지판" 등으로 분류하는 반면, OCR은 세분화되어 해당 이미지 내의 특정 문자 시퀀스를 찾아 식별합니다. 이미지. 마찬가지로 OCR은 표준 객체 감지와는 다릅니다, 객체 클래스로 "정지 표지판"을 찾을 수 있는 반면, OCR은 표지판의 "S-T-O-P" 문자를 읽습니다. 문자를 읽습니다.

YOLO11 텍스트 감지 구현하기

일반적인 워크플로에서는 YOLO 모델을 사용하여 텍스트 영역을 detect 후 인식 엔진( 오픈 소스 테서랙트 OCR 엔진). 다음 예제 는 사전 학습된 모델을 로드하여 번호판이나 교통 표지판과 같이 일반적으로 텍스트가 포함된 객체를 detect 방법을 보여줍니다. 교통 표지판

from ultralytics import YOLO

# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)

# Display the detected class names (e.g., 'stop sign')
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

추가 읽기 및 리소스

초기 OCR 연구의 원동력이 된 기초 데이터 세트를 살펴보기 위해 손으로 쓴 숫자에 대한MNIST 데이터베이스 는 대표적인 자료입니다. 기술의 진화에 관심이 있는 분들을 위해 테서랙트 프로젝트의 역사를 살펴보세요. 오픈소스에 대한 인사이트를 제공하는 테서랙트 프로젝트의 역사 기여에 대한 통찰력을 제공합니다. 다음과 같은 최신 클라우드 기반 솔루션 Google 클라우드 비전 APIAmazon Textract와 같은 최신 클라우드 기반 솔루션은 현재 관리형 OCR 서비스의 최신 기술을 대표합니다. 또한 장면 텍스트 인식에 대한 연구는 계속되고 있습니다. 한계를 뛰어넘어 AI가 제약이 없는 '야생' 환경에서도 텍스트를 읽을 수 있도록 지원합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기