Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng ký tự quang học (OCR)

Khám phá cách nhận dạng ký tự quang học (OCR) chuyển đổi hình ảnh thành dữ liệu có thể tìm kiếm. Tìm hiểu cách xây dựng các quy trình OCR bằng cách sử dụng... Ultralytics YOLO26 dùng để nhận diện văn bản.

Nhận dạng ký tự quang học (OCR) là một công nghệ then chốt trong lĩnh vực thị giác máy tính , cho phép chuyển đổi nhiều loại tài liệu khác nhau—như tài liệu giấy được quét, tệp PDF hoặc hình ảnh được chụp bằng máy ảnh kỹ thuật số—thành dữ liệu có thể chỉnh sửa và tìm kiếm. Bằng cách chuyển đổi các biểu diễn trực quan của văn bản thành các ký tự được mã hóa bằng máy tính, OCR thu hẹp khoảng cách giữa thế giới vật lý và kỹ thuật số, cho phép các hệ thống trí tuệ nhân tạo (AI) diễn giải và xử lý thông tin văn bản trước đây bị khóa trong các điểm ảnh tĩnh. Trong khi các phiên bản OCR ban đầu dựa vào việc so khớp mẫu đơn giản với các mẫu được lưu trữ, các hệ thống hiện đại tận dụng các kiến ​​trúc học sâu phức tạp để xử lý nhiều loại phông chữ, bố cục phức tạp và thậm chí cả chữ viết tay với độ chính xác cao.

Quy trình OCR

Các hệ thống OCR hiện đại thường hoạt động như một quy trình nhiều giai đoạn, chuyển đổi dữ liệu hình ảnh thô thành thông tin có cấu trúc thông qua một số bước riêng biệt. Quá trình này thường kết hợp xử lý hình ảnh tiêu chuẩn với các mạng nơ-ron tiên tiến.

  • Xử lý sơ bộ hình ảnh : Trước khi văn bản có thể được nhận dạng, dữ liệu đầu vào thô sẽ trải qua quá trình xử lý sơ bộ để nâng cao chất lượng. Các kỹ thuật như ngưỡng hóa chuyển đổi hình ảnh thành ảnh nhị phân đen trắng, trong khi giảm nhiễu giúp tách các nét chữ khỏi nền nhiễu.
  • Phát hiện văn bản : Bước quan trọng này bao gồm việc xác định các vùng cụ thể trong hình ảnh có chứa văn bản. Các mô hình phát hiện đối tượng hiệu suất cao, chẳng hạn như Ultralytics YOLO26 tiên tiến, thường được sử dụng ở đây để vẽ các khung bao quanh các từ, dòng hoặc đoạn văn. Việc định vị này cho phép công cụ nhận dạng tiếp theo chỉ tập trung vào các khu vực có liên quan.
  • Nhận dạng văn bản : Sau khi các vùng văn bản được cắt, chúng được đưa vào mô hình nhận dạng. Các kiến ​​trúc kết hợp Mạng nơ-ron tích chập (CNN) để trích xuất đặc trưng và Mạng nơ-ron hồi quy (RNN) để mô hình hóa chuỗi là tiêu chuẩn để giải mã các mẫu pixel thành chuỗi ký tự.
  • Xử lý hậu kỳ : Kết quả cuối cùng thường được tinh chỉnh bằng các kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) . Từ điển và mô hình ngôn ngữ giúp sửa lỗi chính tả và đảm bảo văn bản được nhận dạng có tính nhất quán về ngữ nghĩa, từ đó cải thiện đáng kể độ chính xác tổng thể.

Các Ứng dụng Thực tế

Việc tích hợp OCR với các lĩnh vực trí tuệ nhân tạo khác đã dẫn đến tự động hóa rộng rãi trong nhiều ngành công nghiệp, làm thay đổi cách thức các doanh nghiệp xử lý dữ liệu.

Nhận dạng biển số xe tự động (ANPR)

Trong cơ sở hạ tầng thành phố thông minh, OCR đóng vai trò là động cơ cốt lõi đằng sau hệ thống nhận dạng biển số tự động ( ANPR). Đầu tiên, bộ phận phát hiện đối tượng xác định phương tiện và biển số xe trong khung hình video. Sau đó, các thuật toán OCR trích xuất các ký tự chữ và số để đối chiếu với cơ sở dữ liệu nhằm thu phí tự động hoặc giám sát an ninh . Điều này đòi hỏi khả năng suy luận thời gian thực mạnh mẽ để xử lý dữ liệu giao thông tốc độ cao một cách hiệu quả.

Xử lý tài liệu thông minh (IDP)

Lĩnh vực tài chính và pháp luật sử dụng công nghệ nhận dạng ký tự quang học (OCR) để phân tích tài liệu thông minh . Thay vì nhập liệu thủ công, các hệ thống trí tuệ nhân tạo (AI) quét hóa đơn, biên lai và hợp đồng. Bằng cách kết hợp OCR với nhận dạng thực thể được đặt tên (NER) , các hệ thống này có thể tự động trích xuất các trường cụ thể như ngày tháng, tên nhà cung cấp và tổng số tiền, giảm thiểu chi phí quản lý và tăng tốc quy trình làm việc.

Phân biệt OCR với các thuật ngữ liên quan

Điều quan trọng là phải phân biệt OCR với phân loại hình ảnh . Trong khi phân loại hình ảnh phân loại toàn bộ hình ảnh (ví dụ: gắn nhãn hình ảnh là "tài liệu" hoặc "hóa đơn"), OCR hoạt động ở mức độ chi tiết hơn; nó định vị và xác định chuỗi ký tự cụ thể trong hình ảnh đó. Tương tự, OCR khác với nhận diện đối tượng tiêu chuẩn, vốn có thể xác định "biển báo dừng" là một lớp đối tượng chung, trong khi OCR sẽ đọc các chữ cái cụ thể "STOP" được in trên biển báo.

Phát hiện văn bản với Ultralytics

Một quy trình làm việc hiện đại phổ biến bao gồm việc sử dụng... YOLO mô hình tới detect Các vùng văn bản được xử lý trước khi chuyển chúng đến một công cụ nhận dạng chuyên dụng như Tesseract hoặc PaddleOCR. Nền tảng Ultralytics đơn giản hóa việc huấn luyện các mô hình phát hiện này trên các tập dữ liệu tùy chỉnh. Ví dụ sau đây minh họa cách sử dụng mô hình YOLO26 được huấn luyện trước Ultralytics để... detect Các vật thể thường có chứa văn bản, chẳng hạn như biển số xe.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")
    # Further processing would pass these crops to an OCR engine

Đọc thêm và Tài nguyên

Để khám phá các tập dữ liệu nền tảng đã thúc đẩy nghiên cứu OCR thời kỳ đầu, cơ sở dữ liệu chữ số viết tay MNIST vẫn là một nguồn tài nguyên kinh điển để đánh giá hiệu năng. Đối với những người quan tâm đến sự phát triển mã nguồn mở của công nghệ này, lịch sử của dự án Tesseract cung cấp cái nhìn sâu sắc về những đóng góp từ cộng đồng. Các giải pháp dựa trên đám mây hiện đại như Google Cloud Vision APIAmazon Textract đại diện cho công nghệ tiên tiến nhất hiện nay trong các dịch vụ OCR được quản lý. Ngoài ra, nghiên cứu về Nhận dạng Văn bản trong Cảnh (Scene Text Recognition) tiếp tục vượt qua các giới hạn, cho phép AI đọc văn bản trong môi trường không bị hạn chế, "hoang dã" nơi ánh sáng và phối cảnh thay đổi.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay