Khám phá cách nhận dạng ký tự quang học (OCR) chuyển đổi hình ảnh thành dữ liệu có thể tìm kiếm. Tìm hiểu cách xây dựng các quy trình OCR bằng cách sử dụng... Ultralytics YOLO26 dùng để nhận diện văn bản.
Nhận dạng ký tự quang học (OCR) là một công nghệ then chốt trong lĩnh vực thị giác máy tính , cho phép chuyển đổi nhiều loại tài liệu khác nhau—như tài liệu giấy được quét, tệp PDF hoặc hình ảnh được chụp bằng máy ảnh kỹ thuật số—thành dữ liệu có thể chỉnh sửa và tìm kiếm. Bằng cách chuyển đổi các biểu diễn trực quan của văn bản thành các ký tự được mã hóa bằng máy tính, OCR thu hẹp khoảng cách giữa thế giới vật lý và kỹ thuật số, cho phép các hệ thống trí tuệ nhân tạo (AI) diễn giải và xử lý thông tin văn bản trước đây bị khóa trong các điểm ảnh tĩnh. Trong khi các phiên bản OCR ban đầu dựa vào việc so khớp mẫu đơn giản với các mẫu được lưu trữ, các hệ thống hiện đại tận dụng các kiến trúc học sâu phức tạp để xử lý nhiều loại phông chữ, bố cục phức tạp và thậm chí cả chữ viết tay với độ chính xác cao.
Các hệ thống OCR hiện đại thường hoạt động như một quy trình nhiều giai đoạn, chuyển đổi dữ liệu hình ảnh thô thành thông tin có cấu trúc thông qua một số bước riêng biệt. Quá trình này thường kết hợp xử lý hình ảnh tiêu chuẩn với các mạng nơ-ron tiên tiến.
Việc tích hợp OCR với các lĩnh vực trí tuệ nhân tạo khác đã dẫn đến tự động hóa rộng rãi trong nhiều ngành công nghiệp, làm thay đổi cách thức các doanh nghiệp xử lý dữ liệu.
Trong cơ sở hạ tầng thành phố thông minh, OCR đóng vai trò là động cơ cốt lõi đằng sau hệ thống nhận dạng biển số tự động ( ANPR). Đầu tiên, bộ phận phát hiện đối tượng xác định phương tiện và biển số xe trong khung hình video. Sau đó, các thuật toán OCR trích xuất các ký tự chữ và số để đối chiếu với cơ sở dữ liệu nhằm thu phí tự động hoặc giám sát an ninh . Điều này đòi hỏi khả năng suy luận thời gian thực mạnh mẽ để xử lý dữ liệu giao thông tốc độ cao một cách hiệu quả.
Lĩnh vực tài chính và pháp luật sử dụng công nghệ nhận dạng ký tự quang học (OCR) để phân tích tài liệu thông minh . Thay vì nhập liệu thủ công, các hệ thống trí tuệ nhân tạo (AI) quét hóa đơn, biên lai và hợp đồng. Bằng cách kết hợp OCR với nhận dạng thực thể được đặt tên (NER) , các hệ thống này có thể tự động trích xuất các trường cụ thể như ngày tháng, tên nhà cung cấp và tổng số tiền, giảm thiểu chi phí quản lý và tăng tốc quy trình làm việc.
Điều quan trọng là phải phân biệt OCR với phân loại hình ảnh . Trong khi phân loại hình ảnh phân loại toàn bộ hình ảnh (ví dụ: gắn nhãn hình ảnh là "tài liệu" hoặc "hóa đơn"), OCR hoạt động ở mức độ chi tiết hơn; nó định vị và xác định chuỗi ký tự cụ thể trong hình ảnh đó. Tương tự, OCR khác với nhận diện đối tượng tiêu chuẩn, vốn có thể xác định "biển báo dừng" là một lớp đối tượng chung, trong khi OCR sẽ đọc các chữ cái cụ thể "STOP" được in trên biển báo.
Một quy trình làm việc hiện đại phổ biến bao gồm việc sử dụng... YOLO mô hình tới detect Các vùng văn bản được xử lý trước khi chuyển chúng đến một công cụ nhận dạng chuyên dụng như Tesseract hoặc PaddleOCR. Nền tảng Ultralytics đơn giản hóa việc huấn luyện các mô hình phát hiện này trên các tập dữ liệu tùy chỉnh. Ví dụ sau đây minh họa cách sử dụng mô hình YOLO26 được huấn luyện trước Ultralytics để... detect Các vật thể thường có chứa văn bản, chẳng hạn như biển số xe.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")
# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")
# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
print(f"Detected classes: {r.boxes.cls}")
# Further processing would pass these crops to an OCR engine
Để khám phá các tập dữ liệu nền tảng đã thúc đẩy nghiên cứu OCR thời kỳ đầu, cơ sở dữ liệu chữ số viết tay MNIST vẫn là một nguồn tài nguyên kinh điển để đánh giá hiệu năng. Đối với những người quan tâm đến sự phát triển mã nguồn mở của công nghệ này, lịch sử của dự án Tesseract cung cấp cái nhìn sâu sắc về những đóng góp từ cộng đồng. Các giải pháp dựa trên đám mây hiện đại như Google Cloud Vision API và Amazon Textract đại diện cho công nghệ tiên tiến nhất hiện nay trong các dịch vụ OCR được quản lý. Ngoài ra, nghiên cứu về Nhận dạng Văn bản trong Cảnh (Scene Text Recognition) tiếp tục vượt qua các giới hạn, cho phép AI đọc văn bản trong môi trường không bị hạn chế, "hoang dã" nơi ánh sáng và phối cảnh thay đổi.