Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng ký tự quang học (OCR)

Khám phá cách OCR chuyển đổi hình ảnh và PDF thành văn bản có thể tìm kiếm và chỉnh sửa bằng AI và YOLO11 để phát hiện và trích xuất văn bản nhanh chóng và chính xác.

Nhận dạng Ký tự Quang học (OCR) là một công nghệ then chốt trong lĩnh vực thị giác máy tính , giúp chuyển đổi các loại tài liệu khác nhau, chẳng hạn như tài liệu giấy được quét, tệp PDF hoặc hình ảnh chụp bằng máy ảnh kỹ thuật số, thành dữ liệu có thể chỉnh sửa và tìm kiếm. Bằng cách thu hẹp khoảng cách giữa giấy tờ vật lý và dữ liệu kỹ thuật số, OCR cho phép máy móc "đọc" và xử lý văn bản theo cách mà trước đây chỉ giới hạn ở khả năng của con người. Trong khi các phiên bản đầu tiên dựa vào việc so khớp mẫu đơn giản, OCR hiện đại tận dụng các thuật toán học máyhọc sâu tiên tiến để xử lý các phông chữ phức tạp, chữ viết tay và nền nhiễu với độ chính xác đáng kinh ngạc.

Cơ chế của OCR hiện đại

Các hệ thống OCR hiện đại hoạt động như một quy trình đa giai đoạn, chuyển đổi dữ liệu hình ảnh thô thành thông tin có cấu trúc. Quy trình này đã phát triển đáng kể từ việc đối chiếu mẫu cứng nhắc sang các phương pháp linh hoạt, dựa trên AI.

Ứng dụng AI trong thế giới thực

Việc tích hợp OCR với các lĩnh vực AI khác đã dẫn đến việc tự động hóa rộng rãi trong nhiều ngành công nghiệp khác nhau.

Nhận dạng biển số xe tự động (ANPR)

Trong cơ sở hạ tầng thành phố thông minh, OCR là công cụ hỗ trợ Nhận dạng Biển số Tự động . Đầu tiên, một máy dò vật thể sẽ xác định phương tiện và biển số xe trong một khung hình video. Sau đó, các thuật toán OCR trích xuất các ký tự chữ và số để đối chiếu với cơ sở dữ liệu thu phí hoặc giám sát an ninh . Điều này đòi hỏi khả năng suy luận thời gian thực để xử lý dữ liệu giao thông tốc độ cao.

Xử lý tài liệu thông minh (IDP)

Các lĩnh vực tài chính và pháp lý sử dụng OCR để phân tích tài liệu thông minh . Thay vì nhập liệu thủ công, hệ thống AI quét hóa đơn, biên lai và hợp đồng. Bằng cách kết hợp OCR với Nhận dạng Thực thể Có Tên (NER) , các hệ thống này có thể tự động trích xuất các trường cụ thể như ngày tháng, tên nhà cung cấp và tổng số tiền, giảm đáng kể chi phí hành chính và độ trễ suy luận .

OCR so với Phân loại hình ảnh

Điều quan trọng là phải phân biệt OCR với phân loại hình ảnh . Trong khi phân loại hình ảnh phân loại toàn bộ hình ảnh (ví dụ: gắn nhãn hình ảnh là "tài liệu" hoặc "biển báo đường phố"), OCR lại mang tính chi tiết; nó định vị và nhận dạng chuỗi ký tự cụ thể trong hình ảnh đó. Tương tự, OCR khác với phát hiện đối tượng tiêu chuẩn, vốn có thể tìm thấy "biển báo dừng" là một lớp đối tượng, trong khi OCR sẽ đọc các chữ cái "STOP" trên biển báo.

Triển khai phát hiện văn bản với YOLO11

Một quy trình làm việc chung sử dụng một YOLO mô hình để detect vùng văn bản trước khi chuyển chúng đến một công cụ nhận dạng (như công cụ Tesseract OCR nguồn mở). Ví dụ sau đây minh họa cách tải một mô hình được đào tạo trước vào detect các vật thể thường chứa văn bản, chẳng hạn như biển số xe hoặc biển báo giao thông.

from ultralytics import YOLO

# Load the YOLO11 model pre-trained on COCO dataset
model = YOLO("yolo11n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
# The model detects the object, allowing a secondary OCR step to crop and read it
results = model.predict(source="path/to/street_sign.jpg", save=True)

# Display the detected class names (e.g., 'stop sign')
for r in results:
    print(f"Detected classes: {r.boxes.cls}")

Đọc thêm và Tài nguyên

Để khám phá các tập dữ liệu nền tảng đã thúc đẩy nghiên cứu OCR ban đầu, cơ sở dữ liệu MNIST về chữ số viết tay là một nguồn tài nguyên kinh điển. Đối với những ai quan tâm đến sự phát triển của công nghệ, lịch sử của dự án Tesseract cung cấp cái nhìn sâu sắc về các đóng góp nguồn mở. Các giải pháp đám mây hiện đại như Google Cloud Vision APIAmazon Textract đại diện cho công nghệ tiên tiến nhất hiện nay trong các dịch vụ OCR được quản lý. Ngoài ra, nghiên cứu về Nhận dạng Văn bản Cảnh tiếp tục mở rộng ranh giới, cho phép AI đọc văn bản trong các môi trường "hoang dã" không bị giới hạn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay