YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

광학 문자 인식(OCR)

빠르고 정확한 텍스트 감지 및 추출을 위해 AI와 YOLO11을 사용하여 이미지와 PDF를 검색 가능하고 편집 가능한 텍스트로 변환하는 OCR의 원리를 알아보세요.

광학 문자 인식(OCR)은 스캔한 종이 문서, PDF, 디지털 카메라로 캡처한 이미지 등 다양한 유형의 문서를 편집 및 검색 가능한 데이터로 변환하는 기술입니다. 처음에는 인쇄된 텍스트를 음성으로 변환하여 시각 장애인을 돕기 위해 개발된 OCR은 다양한 산업 분야에서 디지털 혁신의 초석으로 발전해 왔습니다. 인공 지능(AI)컴퓨터 비전의 발전을 활용하여 최신 OCR 시스템은 다양한 글꼴, 언어, 심지어 손글씨 스타일의 텍스트를 놀라운 정확도로 인식할 수 있습니다.

광학 문자 인식의 작동 원리

이미지를 디지털 텍스트로 변환하는 과정에는 몇 가지 주요 단계가 포함됩니다. 딥러닝으로 강화된 최신 OCR 파이프라인은 초기의 템플릿 매칭 시스템보다 훨씬 더 강력합니다.

  • 이미지 사전 처리: 첫 번째 단계는 원본 이미지를 깨끗하게 정리하고 품질을 향상시키는 것입니다. 밝기와 대비를 조정하고, 노이즈를 줄이고, 이미지를 선명하게 하는 등의 기술을 적용하여 텍스트를 더 선명하고 쉽게 알아볼 수 있도록 합니다. 이 단계는 특히 저화질 스캔이나 열악한 조명 조건에서 촬영한 이미지를 다룰 때 매우 중요합니다.
  • 텍스트 감지: 문자를 인식하기 전에 시스템은 이미지 내에서 텍스트가 있는 위치를 찾아야 합니다. 이 작업은 텍스트 블록, 줄 또는 개별 단어를 식별하고 분리할 수 있는 Ultralytics YOLO11과 같은 강력한 개체 감지 모델을 사용하여 수행되는 경우가 많습니다.
  • 문자 인식: 텍스트 영역이 감지되면 방대한 문자 데이터 세트로 학습된 신경망이 모양과 패턴을 분석하여 각 문자와 숫자를 식별합니다. 이 과정에서 HP에서 개발하여 현재 Google에서 유지 관리하는 오픈 소스 Tesseract 엔진과 같은 도구가 사용됩니다.
  • 후처리: 마지막 단계에서는 인식된 문자를 구조화되고 사용 가능한 텍스트로 변환하는 작업이 포함됩니다. 여기에는 오류를 수정하기 위한 언어 모델링이나 다른 소프트웨어와 쉽게 통합할 수 있도록 출력을 JSON 또는 XML과 같은 특정 형식으로 포맷하는 작업이 포함될 수 있습니다.

OCR 및 관련 컴퓨터 비전 작업

OCR은 고도로 전문화된 기술이지만 다른 컴퓨터 비전 작업과 밀접한 관련이 있습니다. 따라서 고유한 역할을 이해하는 것이 중요합니다.

OCR은 광범위한 이미지 인식과는 근본적으로 다릅니다. 이미지 인식은 이미지 내의 사물, 장면, 얼굴을 식별하는 것을 목표로 하는 반면, OCR은 텍스트 문자를 해석하는 데에만 집중합니다. 그러나 이러한 기술은 종종 함께 작동합니다. 예를 들어, 애플리케이션에서 이미지 인식을 사용하여 도로 표지판을 식별한 다음 OCR을 사용하여 해당 표지판의 텍스트를 읽을 수 있습니다. 마찬가지로 문서 분석에서는 객체 감지 모델이 먼저 서명이나 송장 번호의 위치를 식별한 후 OCR을 적용하여 특정 정보를 추출합니다.

실제 애플리케이션

컴퓨터 비전과 OCR의 결합으로 다양한 분야에서 효율성과 자동화를 실현할 수 있게 되었습니다.

  • 자동 번호판 인식(ANPR): 교통 관리 및 법 집행 분야에서 ANPR 시스템은 물체 감지 모델을 사용하여 이미지 또는 비디오 피드에서 차량의 번호판을 먼저 찾습니다. 번호판이 분리되면 OCR 기술이 영숫자 문자를 판독하여 데이터베이스 조회, 통행료 징수 또는 도난 차량 추적을 위해 기계가 읽을 수 있는 텍스트로 변환합니다.
  • 송장 및 영수증 처리: 금융 서비스 및 소매 업계에서는 송장, 영수증, 은행 명세서 처리를 자동화하기 위해 OCR을 사용합니다. 컴퓨터 비전 모델은 인보이스에서 공급업체 이름, 날짜, 총액과 같은 주요 필드를 감지할 수 있습니다. 그런 다음 OCR은 이러한 특정 영역에서 텍스트를 추출하여 수동 데이터 입력을 없애고 오류를 줄이며 결제 주기를 단축합니다.

보존 및 연구를 위한 기록 보관소의 디지털화, 의료 분야의 환자 기록 관리 간소화, 여권 및 신분증에서 데이터를 추출하여 신원 확인을 가능하게 하는 등의 중요한 애플리케이션도 있습니다. EasyOCRPaddleOCR과 같은 인기 있는 오픈 소스 라이브러리를 통해 개발자는 이 기술을 더욱 쉽게 애플리케이션에 통합할 수 있게 되었습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.