Khám phá cách nhận dạng hình ảnh trao quyền cho AI để classify và hiểu về hình ảnh, thúc đẩy đổi mới trong chăm sóc sức khỏe, bán lẻ, an ninh, v.v.
Nhận dạng hình ảnh là một công nghệ quan trọng trong lĩnh vực thị giác máy tính (CV) rộng lớn hơn, cho phép phần mềm nhận dạng vật thể, con người, địa điểm và chữ viết trong hình ảnh. Về cốt lõi, công nghệ này cho phép máy tính "nhìn thấy" và diễn giải dữ liệu hình ảnh theo cách mô phỏng nhận thức của con người. Bằng cách phân tích nội dung pixel của hình ảnh kỹ thuật số hoặc khung hình video, các thuật toán học máy (ML) có thể trích xuất các mẫu có ý nghĩa và gán các khái niệm cấp cao cho các đầu vào hình ảnh. Khả năng này là nền tảng của trí tuệ nhân tạo (AI) hiện đại, cho phép các hệ thống tự động hóa các tác vụ mà trước đây đòi hỏi sự hiểu biết và quan sát của con người.
Các hệ thống nhận dạng hình ảnh hiện đại chủ yếu dựa trên kiến trúc học sâu (DL) . Cụ thể, Mạng nơ-ron tích chập (CNN) đã trở thành tiêu chuẩn công nghiệp nhờ khả năng bảo toàn các mối quan hệ không gian trong dữ liệu. Các mạng này xử lý hình ảnh thông qua các lớp bộ lọc toán học, thực hiện trích xuất đặc trưng để xác định các hình dạng đơn giản như cạnh và kết cấu trước khi kết hợp chúng để nhận dạng các thực thể phức tạp như khuôn mặt hoặc phương tiện.
Để hoạt động hiệu quả, các mô hình này cần dữ liệu đào tạo phong phú. Các bộ sưu tập ảnh được gắn nhãn khổng lồ, chẳng hạn như tập dữ liệu ImageNet nổi tiếng, cho phép mô hình học xác suất thống kê rằng một cách sắp xếp pixel cụ thể tương ứng với một lớp cụ thể, chẳng hạn như "Golden Retriever" hoặc "Đèn giao thông".
Mặc dù thường được sử dụng thay thế cho các thuật ngữ khác, việc xác định các sắc thái là rất quan trọng đối với các nhà phát triển:
Tiện ích của nhận dạng hình ảnh trải rộng trên hầu hết mọi lĩnh vực. Trong lĩnh vực chăm sóc sức khỏe , các thuật toán hỗ trợ bác sĩ X-quang bằng cách tự động nhận dạng các bất thường trong ảnh chụp X-quang và MRI, giúp chẩn đoán nhanh hơn các bệnh lý như viêm phổi hoặc khối u. Điều này thuộc lĩnh vực chuyên biệt của phân tích hình ảnh y tế .
Một ứng dụng nổi bật khác là trong ngành công nghiệp ô tô, đặc biệt là xe tự hành . Xe tự lái sử dụng các thuật toán nhận dạng để nhận dạng vạch kẻ đường, đọc biển báo giới hạn tốc độ và detect Người đi bộ theo thời gian thực để đưa ra các quyết định quan trọng về an toàn. Tương tự, trong môi trường bán lẻ thông minh , hệ thống sử dụng công nghệ nhận dạng để tạo điều kiện thuận lợi cho việc thanh toán không cần thu ngân bằng cách nhận dạng sản phẩm khi khách hàng lấy chúng ra khỏi kệ.
Các nhà phát triển có thể dễ dàng triển khai khả năng nhận dạng bằng cách sử dụng các mô hình tiên tiến như YOLO11 . Trong khi YOLO Nổi tiếng với khả năng phát hiện, nó cũng hỗ trợ các tác vụ phân loại tốc độ cao. Đoạn mã Python sau đây minh họa cách tải một mô hình được đào tạo trước và xác định chủ thể chính của một hình ảnh.
from ultralytics import YOLO
# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Perform inference on an external image URL
# The model will identify the most likely class (e.g., 'sportscar')
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top predicted class name
print(f"Top Prediction: {results[0].names[results[0].probs.top1]}")
Khi phần cứng được cải thiện, lĩnh vực này đang chuyển dịch sang AI biên (edge AI) , nơi nhận dạng diễn ra trực tiếp trên các thiết bị như điện thoại thông minh và máy ảnh thay vì trên đám mây. Sự thay đổi này làm giảm độ trễ và cải thiện quyền riêng tư. Hơn nữa, những tiến bộ trong lượng tử hóa mô hình đang giúp các công cụ mạnh mẽ này đủ nhẹ để chạy trên vi điều khiển, mở rộng phạm vi ứng dụng IoT .