Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng ký tự quang học (OCR)

Khám phá cách OCR chuyển đổi hình ảnh và PDF thành văn bản có thể tìm kiếm và chỉnh sửa bằng AI và YOLO11 để phát hiện và trích xuất văn bản nhanh chóng và chính xác.

Nhận dạng ký tự quang học (OCR) là một công nghệ nền tảng trong thị giác máy tính , chuyển đổi các biểu diễn hình ảnh của văn bản—chẳng hạn như tài liệu được quét, tệp PDF hoặc hình ảnh biển báo đường phố—thành văn bản kỹ thuật số được mã hóa bằng máy và có thể chỉnh sửa. Bằng cách thu hẹp khoảng cách giữa chữ viết vật lý và dữ liệu kỹ thuật số, OCR cho phép các hệ thống trí tuệ nhân tạo (AI) "đọc" và xử lý thông tin trước đây bị khóa trong các điểm ảnh tĩnh. Trong khi các phiên bản ban đầu dựa vào việc khớp mẫu cứng nhắc, OCR hiện đại tận dụng các thuật toán học sâu phức tạp để xử lý nhiều loại phông chữ, kiểu chữ viết tay và nền nhiễu với độ chính xác cao.

Quy trình OCR

Các hệ thống OCR hiện đại thường hoạt động như một quy trình nhiều giai đoạn, chuyển đổi dữ liệu hình ảnh thô thành thông tin có cấu trúc. Quá trình này kết hợp nhiều lĩnh vực học máy khác nhau.

  • Xử lý sơ bộ hình ảnh : Trước khi có thể đọc văn bản, dữ liệu đầu vào thô sẽ trải qua quá trình xử lý sơ bộ để cải thiện chất lượng. Các kỹ thuật như ngưỡng hóa (chuyển đổi hình ảnh sang đen trắng nhị phân) và giảm nhiễu giúp tách các nét chữ khỏi nền.
  • Phát hiện văn bản : Bước quan trọng này bao gồm việc xác định các vùng cụ thể trong hình ảnh có chứa văn bản. Các mô hình phát hiện đối tượng hiệu suất cao, chẳng hạn như Ultralytics YOLO26 tiên tiến, thường được sử dụng ở đây để vẽ các khung bao quanh từ hoặc dòng. Việc định vị này cho phép hệ thống chỉ tập trung vào các khu vực liên quan, bỏ qua các yếu tố hình ảnh không phải văn bản.
  • Nhận dạng văn bản : Sau khi được định vị, các phân đoạn hình ảnh được đưa vào mô hình nhận dạng. Các kiến trúc kết hợp Mạng nơ-ron tích chập (CNN) để trích xuất đặc trưng và Mạng nơ-ron hồi quy (RNN) để mô hình hóa chuỗi là tiêu chuẩn để giải mã các mẫu pixel thành chuỗi ký tự.
  • Xử lý hậu kỳ : Kết quả cuối cùng thường được tinh chỉnh bằng các kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) . Từ điển và mô hình ngôn ngữ giúp sửa lỗi chính tả và đảm bảo văn bản được nhận dạng có tính ngữ nghĩa hợp lý, từ đó cải thiện độ chính xác tổng thể.

Các Ứng dụng Thực tế

Việc tích hợp OCR với các lĩnh vực AI khác đã dẫn đến việc tự động hóa rộng rãi trong nhiều ngành công nghiệp khác nhau.

Nhận dạng biển số xe tự động (ANPR)

Trong cơ sở hạ tầng thành phố thông minh, OCR là động lực đằng sau hệ thống nhận dạng biển số tự động (ANPR ). Đầu tiên, bộ phận nhận dạng đối tượng xác định phương tiện và biển số xe trong khung hình video. Sau đó, các thuật toán OCR trích xuất các ký tự chữ và số để đối chiếu với cơ sở dữ liệu phục vụ việc thu phí hoặc giám sát an ninh . Điều này đòi hỏi khả năng suy luận thời gian thực để xử lý dữ liệu giao thông tốc độ cao một cách hiệu quả.

Xử lý tài liệu thông minh (IDP)

Lĩnh vực tài chính và pháp luật sử dụng OCR để phân tích tài liệu thông minh . Thay vì nhập liệu thủ công, hệ thống AI quét hóa đơn, biên lai và hợp đồng. Bằng cách kết hợp OCR với Nhận dạng Thực thể Được đặt tên (NER) , các hệ thống này có thể tự động trích xuất các trường cụ thể như ngày tháng, tên nhà cung cấp và tổng số tiền, giảm đáng kể chi phí quản lý.

Phân biệt OCR với các thuật ngữ liên quan

Điều quan trọng là phải phân biệt OCR với phân loại hình ảnh . Trong khi phân loại hình ảnh phân loại toàn bộ hình ảnh (ví dụ: gắn nhãn hình ảnh là "tài liệu" hoặc "biển báo đường phố"), OCR hoạt động ở mức độ chi tiết hơn; nó định vị và xác định chuỗi ký tự cụ thể trong hình ảnh đó. Tương tự, OCR khác với nhận diện đối tượng tiêu chuẩn, vốn có thể tìm thấy "biển báo dừng" như một lớp đối tượng, trong khi OCR sẽ đọc các chữ cái "STOP" trên biển báo.

Phát hiện văn bản với Ultralytics

Một quy trình làm việc phổ biến sử dụng YOLO mô hình tới detect các vùng văn bản trước khi chuyển chúng đến công cụ nhận dạng (như công cụ OCR mã nguồn mở Tesseract ). Ví dụ sau đây minh họa cách tải mô hình Ultralytics YOLO11 đã được huấn luyện trước vào detect Các vật thể thường có chứa văn bản, chẳng hạn như biển số xe hoặc biển báo giao thông.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (often used to locate text regions)
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes which acts as the first step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

Đọc thêm và Tài nguyên

Để khám phá các tập dữ liệu nền tảng đã thúc đẩy nghiên cứu OCR thời kỳ đầu, cơ sở dữ liệu chữ số viết tay MNIST là một nguồn tài liệu kinh điển. Đối với những người quan tâm đến sự phát triển của công nghệ, lịch sử của dự án Tesseract cung cấp cái nhìn sâu sắc về những đóng góp mã nguồn mở. Các giải pháp dựa trên đám mây hiện đại như Google Cloud Vision APIAmazon Textract đại diện cho công nghệ tiên tiến nhất hiện nay trong các dịch vụ OCR được quản lý. Ngoài ra, nghiên cứu về Nhận dạng Văn bản trong Cảnh (Scene Text Recognition) tiếp tục vượt qua các giới hạn, cho phép AI đọc văn bản trong môi trường "hoang dã" không bị hạn chế.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay