Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Nhận dạng ký tự quang học (OCR)

Khám phá cách OCR chuyển đổi hình ảnh và PDF thành văn bản có thể tìm kiếm và chỉnh sửa bằng AI và YOLO11 để phát hiện và trích xuất văn bản nhanh chóng và chính xác.

Nhận dạng Ký tự Quang học (OCR) là công nghệ chuyển đổi các loại tài liệu khác nhau, chẳng hạn như tài liệu giấy được quét, PDF hoặc hình ảnh chụp bằng máy ảnh kỹ thuật số, thành dữ liệu có thể chỉnh sửa và tìm kiếm. Ban đầu được phát triển để hỗ trợ người khiếm thị bằng cách chuyển đổi văn bản in thành giọng nói, OCR đã phát triển thành nền tảng của quá trình chuyển đổi số trong nhiều ngành công nghiệp. Bằng cách tận dụng những tiến bộ trong Trí tuệ Nhân tạo (AI)Thị giác Máy tính , các hệ thống OCR hiện đại có thể nhận dạng văn bản ở nhiều phông chữ, ngôn ngữ và thậm chí cả kiểu chữ viết tay với độ chính xác đáng kinh ngạc.

Nhận dạng ký tự quang học hoạt động như thế nào

Quá trình chuyển đổi hình ảnh thành văn bản kỹ thuật số bao gồm một số giai đoạn chính. Các quy trình OCR hiện đại, được tăng cường bằng học sâu , mạnh mẽ hơn nhiều so với các hệ thống so khớp mẫu ban đầu.

  • Tiền xử lý ảnh : Bước đầu tiên là làm sạch và nâng cao chất lượng ảnh gốc. Các kỹ thuật như điều chỉnh độ sáng và độ tương phản, giảm nhiễu và làm sắc nét ảnh được áp dụng để làm cho văn bản rõ ràng hơn và dễ nhận dạng hơn. Giai đoạn này rất quan trọng, đặc biệt khi xử lý ảnh quét chất lượng thấp hoặc ảnh chụp trong điều kiện ánh sáng yếu.
  • Phát hiện văn bản : Trước khi có thể nhận dạng ký tự, hệ thống phải xác định vị trí văn bản trong hình ảnh. Điều này thường được thực hiện bằng các mô hình phát hiện đối tượng mạnh mẽ, chẳng hạn như Ultralytics YOLO11 , có khả năng xác định và tách biệt các khối văn bản, dòng hoặc từng từ riêng lẻ.
  • Nhận dạng ký tự : Sau khi phát hiện các vùng văn bản, một mạng nơ-ron được đào tạo trên các tập dữ liệu ký tự khổng lồ sẽ phân tích hình dạng và mẫu để nhận dạng từng chữ cái và số. Đây chính là lúc các công cụ như công cụ Tesseract mã nguồn mở, ban đầu được HP phát triển và hiện được Google bảo trì, phát huy tác dụng.
  • Hậu xử lý : Giai đoạn cuối cùng bao gồm việc chuyển đổi các ký tự đã nhận dạng thành văn bản có cấu trúc, có thể sử dụng được. Giai đoạn này có thể bao gồm mô hình hóa ngôn ngữ để sửa lỗi hoặc định dạng đầu ra thành một định dạng cụ thể như JSON hoặc XML để dễ dàng tích hợp với các phần mềm khác.

OCR và các nhiệm vụ thị giác máy tính liên quan

Mặc dù OCR là một công nghệ chuyên biệt cao, nhưng nó có liên quan chặt chẽ đến các tác vụ thị giác máy tính khác. Điều quan trọng là phải hiểu vai trò đặc biệt của nó.

OCR về cơ bản khác với Nhận dạng Hình ảnh nói chung. Trong khi nhận dạng hình ảnh nhằm mục đích nhận dạng đối tượng, cảnh và khuôn mặt trong ảnh, OCR chỉ tập trung vào việc diễn giải các ký tự văn bản. Tuy nhiên, các công nghệ này thường hoạt động cùng nhau. Ví dụ: một ứng dụng có thể sử dụng nhận dạng hình ảnh để nhận dạng biển báo đường phố, sau đó sử dụng OCR để đọc văn bản trên biển báo đó. Tương tự, trong phân tích tài liệu , mô hình phát hiện đối tượng trước tiên sẽ xác định vị trí của chữ ký hoặc số hóa đơn trước khi OCR được áp dụng để trích xuất thông tin cụ thể.

Các Ứng dụng Thực tế

Sự kết hợp giữa thị giác máy tính và OCR đã mở ra hiệu quả và tự động hóa trong nhiều lĩnh vực.

  • Nhận dạng Biển số Tự động (ANPR) : Trong quản lý giao thông và thực thi pháp luật, hệ thống ANPR sử dụng mô hình phát hiện đối tượng để định vị biển số xe trong nguồn cấp dữ liệu hình ảnh hoặc video. Sau khi biển số được tách biệt, công nghệ OCR sẽ đọc các ký tự chữ và số, chuyển đổi chúng thành văn bản có thể đọc được bằng máy để tra cứu cơ sở dữ liệu, thu phí đường bộ hoặc theo dõi xe bị đánh cắp.
  • Xử lý Hóa đơn và Biên lai : Các ngành dịch vụ tài chính và bán lẻ dựa vào OCR để tự động hóa việc xử lý hóa đơn, biên lai và sao kê ngân hàng. Mô hình thị giác máy tính có thể phát hiện các trường chính như tên nhà cung cấp, ngày tháng và tổng số tiền trên hóa đơn. Sau đó, OCR trích xuất văn bản từ các vùng cụ thể này, loại bỏ việc nhập dữ liệu thủ công, giảm thiểu lỗi và đẩy nhanh chu kỳ thanh toán.

Các ứng dụng quan trọng khác bao gồm số hóa kho lưu trữ lịch sử để bảo quản và nghiên cứu, đơn giản hóa việc quản lý hồ sơ bệnh nhân trong chăm sóc sức khỏe và cho phép xác minh danh tính bằng cách trích xuất dữ liệu từ hộ chiếu và thẻ căn cước. Các thư viện mã nguồn mở phổ biến như EasyOCRPaddleOCR đã giúp công nghệ này dễ dàng tích hợp hơn vào ứng dụng của các nhà phát triển.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard