Optical Character Recognition (OCR)

Khám phá cách Nhận dạng Ký tự Quang học (OCR) chuyển đổi hình ảnh thành dữ liệu có thể tìm kiếm. Tìm hiểu cách xây dựng các đường ống OCR bằng cách sử dụng Ultralytics YOLO26 để phát hiện văn bản.

Nhận dạng ký tự quang học (OCR) là một công nghệ then chốt trong lĩnh vực thị giác máy tính, cho phép chuyển đổi nhiều loại tài liệu khác nhau—chẳng hạn như tài liệu giấy được quét, tệp PDF hoặc hình ảnh chụp bằng máy ảnh kỹ thuật số—thành dữ liệu có thể chỉnh sửa và tìm kiếm được. Bằng cách dịch các biểu diễn hình ảnh của văn bản sang các ký tự được mã hóa bằng máy, OCR thu hẹp khoảng cách giữa thế giới vật lý và kỹ thuật số, cho phép các hệ thống trí tuệ nhân tạo (AI) diễn giải và xử lý thông tin văn bản trước đây vốn bị khóa trong các điểm ảnh tĩnh. Trong khi các phiên bản OCR sơ khai dựa trên việc so khớp mẫu đơn giản với các mẫu đã lưu trữ, các hệ thống hiện đại tận dụng các kiến trúc học sâu tinh vi để xử lý nhiều loại phông chữ, bố cục phức tạp và thậm chí cả chữ viết tay với độ chính xác cao.

Link to this sectionQuy trình OCR#

Các hệ thống OCR hiện đại thường vận hành như một quy trình đa giai đoạn, biến đổi dữ liệu hình ảnh thô thành thông tin có cấu trúc thông qua một vài bước riêng biệt. Quy trình này thường kết hợp xử lý hình ảnh tiêu chuẩn với các mạng thần kinh tiên tiến.

Tiền xử lý hình ảnh: Trước khi văn bản có thể được nhận dạng, dữ liệu đầu vào thô trải qua quá trình tiền xử lý dữ liệu để nâng cao chất lượng. Các kỹ thuật như phân ngưỡng chuyển đổi hình ảnh sang định dạng đen trắng nhị phân, trong khi khử nhiễu giúp tách các nét ký tự ra khỏi nền nhiễu.
Phát hiện văn bản: Bước quan trọng này liên quan đến việc xác định các vùng cụ thể trong hình ảnh có chứa văn bản. Các mô hình phát hiện đối tượng hiệu năng cao, chẳng hạn như Ultralytics YOLO26 tiên tiến nhất, thường được sử dụng ở đây để vẽ các bounding box xung quanh các từ, dòng hoặc đoạn văn. Việc định vị này cho phép bộ máy nhận dạng sau đó chỉ tập trung vào các khu vực liên quan.
Nhận dạng văn bản: Sau khi các vùng văn bản được cắt ra, chúng được đưa vào một mô hình nhận dạng. Các kiến trúc kết hợp Mạng thần kinh tích chập (CNN) để trích xuất đặc trưng và Mạng thần kinh tái phát (RNN) để mô hình hóa trình tự là tiêu chuẩn để giải mã các mẫu điểm ảnh thành chuỗi ký tự.
Hậu xử lý: Đầu ra cuối cùng thường được tinh chỉnh bằng cách sử dụng các kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP). Từ điển và các mô hình ngôn ngữ giúp sửa lỗi chính tả và đảm bảo văn bản được nhận dạng nhất quán về mặt ngữ nghĩa, từ đó cải thiện đáng kể độ chính xác tổng thể.

Link to this sectionCác ứng dụng trong thực tế#

Sự tích hợp OCR với các ngành AI khác đã dẫn đến quá trình tự động hóa rộng khắp trên nhiều ngành công nghiệp, làm thay đổi cách doanh nghiệp xử lý dữ liệu.

Link to this sectionNhận dạng biển số xe tự động (ANPR)#

Trong cơ sở hạ tầng thành phố thông minh, OCR đóng vai trò là bộ máy cốt lõi đằng sau Nhận dạng biển số tự động. Một bộ phát hiện đối tượng trước tiên xác định phương tiện và biển số trong khung hình video. Sau đó, các thuật toán OCR trích xuất các ký tự chữ và số để đối chiếu với cơ sở dữ liệu cho việc thu phí tự động hoặc giám sát an ninh. Điều này đòi hỏi năng lực suy luận thời gian thực mạnh mẽ để xử lý dữ liệu giao thông tốc độ cao một cách hiệu quả.

Link to this sectionXử lý tài liệu thông minh (IDP)#

Các lĩnh vực tài chính và pháp lý sử dụng OCR cho phân tích tài liệu thông minh. Thay vì nhập dữ liệu thủ công, các hệ thống AI quét hóa đơn, biên lai và hợp đồng. Bằng cách kết hợp OCR với Nhận dạng thực thể có tên (NER), các hệ thống này có thể tự động trích xuất các trường cụ thể như ngày tháng, tên nhà cung cấp và tổng số tiền, giúp giảm bớt gánh nặng hành chính và tăng tốc quy trình làm việc.

Link to this sectionPhân biệt OCR với các thuật ngữ liên quan#

Việc phân biệt OCR với phân loại hình ảnh là rất quan trọng. Trong khi phân loại hình ảnh phân loại toàn bộ hình ảnh (ví dụ: gắn nhãn hình ảnh là "tài liệu" hoặc "hóa đơn"), OCR mang tính chi tiết hơn; nó định vị và xác định chuỗi ký tự cụ thể bên trong hình ảnh đó. Tương tự, OCR khác với phát hiện đối tượng tiêu chuẩn, vốn có thể xác định "biển báo dừng" như một lớp đối tượng chung, trong khi OCR sẽ đọc các chữ cái cụ thể "S-T-O-P" được in trên biển báo đó.

Link to this sectionPhát hiện văn bản với Ultralytics#

Một quy trình hiện đại phổ biến bao gồm việc sử dụng mô hình YOLO để phát hiện các vùng văn bản trước khi chuyển chúng đến một bộ máy nhận dạng chuyên dụng như Tesseract hoặc PaddleOCR. Nền tảng Ultralytics đơn giản hóa việc huấn luyện các mô hình phát hiện này trên các tập dữ liệu tùy chỉnh. Ví dụ sau đây minh họa cách sử dụng mô hình Ultralytics YOLO26 đã được huấn luyện sẵn để phát hiện các đối tượng thường chứa văn bản, chẳng hạn như biển số xe.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (ideal for locating text regions)
model = YOLO("yolo26n.pt")

# Perform inference on an image containing text objects (e.g., a street sign)
results = model.predict(source="https://ultralytics.com/images/bus.jpg")

# Display detected classes, acting as the localization step in an OCR pipeline
for r in results:
    print(f"Detected classes: {r.boxes.cls}")
    # Further processing would pass these crops to an OCR engine

Link to this sectionĐọc thêm và Tài nguyên#

To explore the foundational datasets that drove early OCR research, the MNIST database of handwritten digits remains a classic resource for benchmarking. For those interested in the open-source evolution of the technology, the history of the Tesseract project provides insight into community-driven contributions. Modern cloud-based solutions like Google Cloud Vision API and Amazon Textract represent the current state-of-the-art in managed OCR services. Additionally, research into Scene Text Recognition continues to push boundaries, enabling AI to read text in unconstrained, "wild" environments where lighting and perspective vary.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Optical Character Recognition (OCR)

Link to this sectionQuy trình OCR#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionNhận dạng biển số xe tự động (ANPR)#

Link to this sectionXử lý tài liệu thông minh (IDP)#

Link to this sectionPhân biệt OCR với các thuật ngữ liên quan#

Link to this sectionPhát hiện văn bản với Ultralytics#

Link to this sectionĐọc thêm và Tài nguyên#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!