Image Recognition
Tìm hiểu cách nhận dạng hình ảnh sử dụng AI và học sâu để xác định dữ liệu thị giác. Khám phá các ứng dụng thực tế và triển khai Ultralytics YOLO26 để đạt kết quả hiện đại nhất.
Nhận diện hình ảnh là một công nghệ nền tảng trong lĩnh vực rộng lớn hơn của computer vision (CV), cho phép các hệ thống phần mềm xác định đối tượng, con người, địa điểm và văn bản trong hình ảnh kỹ thuật số. Bằng cách phân tích nội dung pixel của một khung hình ảnh hoặc video, công nghệ này cố gắng bắt chước các khả năng nhận thức thị giác của mắt và não người. Được hỗ trợ bởi artificial intelligence (AI), nhận diện hình ảnh chuyển đổi dữ liệu thị giác phi cấu trúc thành thông tin có cấu trúc và có thể hành động, đóng vai trò là nền tảng cho tự động hóa trong các ngành công nghiệp từ chăm sóc sức khỏe đến vận tải tự hành.
Link to this sectionCác cơ chế và công nghệ cốt lõi#
Các hệ thống nhận diện hình ảnh hiện đại đã vượt xa lập trình dựa trên quy tắc truyền thống để dựa phần lớn vào các thuật toán deep learning (DL). Kiến trúc phổ biến nhất được sử dụng cho các tác vụ này là Convolutional Neural Network (CNN). Một CNN xử lý hình ảnh dưới dạng một lưới các giá trị—thường đại diện cho các kênh màu Đỏ, Xanh lục và Xanh lam (RGB)—và truyền chúng qua nhiều lớp phép toán.
Trong quá trình này, mạng thực hiện feature extraction. Các lớp ban đầu có thể phát hiện các mô hình hình học đơn giản như cạnh hoặc góc, trong khi các lớp sâu hơn tổng hợp các mô hình này để nhận ra các cấu trúc phức tạp như mắt, bánh xe hoặc lá cây. Để đạt được độ chính xác cao, các model này đòi hỏi lượng lớn labeled training data. Các tập dữ liệu công cộng quy mô lớn, chẳng hạn như ImageNet, giúp các model học được xác suất thống kê rằng một sự sắp xếp thị giác cụ thể tương ứng với một khái niệm như "mèo", "xe đạp" hoặc "biển báo dừng".
Link to this sectionPhân biệt nhận diện với các khái niệm liên quan#
Mặc dù thuật ngữ "nhận diện hình ảnh" thường được sử dụng như một cụm từ bao quát, nhưng nó khác biệt với các tác vụ computer vision cụ thể khác. Việc hiểu những sắc thái này là rất quan trọng để chọn đúng model cho một dự án:
- Nhận diện so với Image Classification: Phân loại là tác vụ gán một nhãn duy nhất cho toàn bộ hình ảnh (ví dụ: gắn nhãn một bức ảnh là "bãi biển"). Nhận diện là khả năng rộng hơn cho phép hệ thống hiểu được nội dung.
- Nhận diện so với Object Detection: Trong khi nhận diện xác định cái gì có trong hình ảnh, thì phát hiện xác định vị trí của nó ở đâu. Các thuật toán phát hiện vẽ một bounding box xung quanh mỗi thực thể đối tượng, tách biệt nó khỏi nền.
- Nhận diện so với Instance Segmentation: Điều này đưa việc nhận diện tiến thêm một bước bằng cách xác định chính xác các đường viền pixel của một đối tượng, thay vì chỉ là một khung. Điều này rất quan trọng đối với các ứng dụng đòi hỏi phép đo chính xác, chẳng hạn như biomedical image analysis.
Link to this sectionCác ứng dụng trong thực tế#
Tiện ích của nhận diện hình ảnh bao trùm hầu như mọi lĩnh vực nơi dữ liệu thị giác được tạo ra.
- Chẩn đoán y tế: Trong chăm sóc sức khỏe, các thuật toán nhận diện hỗ trợ bác sĩ chẩn đoán hình ảnh bằng cách phân tích hình ảnh y tế như X-quang và MRI. Các công cụ như AI in radiology có thể xác định các bất thường như khối u hoặc vết gãy nhanh hơn và đôi khi chính xác hơn so với quan sát của con người.
- Bán lẻ và Kiểm kê: Các Smart supermarkets sử dụng nhận diện để theo dõi sản phẩm khi chúng được lấy ra khỏi kệ, cho phép hệ thống thanh toán tự động. Tương tự, robot kho bãi sử dụng nó để xác định và phân loại các gói hàng.
- Bảo mật và Kiểm soát truy cập: Các hệ thống Facial recognition cho phép truy cập an toàn vào điện thoại thông minh và các tòa nhà bằng cách xác minh danh tính dựa trên cơ sở dữ liệu các đặc trưng khuôn mặt được lưu trữ.
Link to this sectionTriển khai nhận diện hình ảnh với YOLO26#
Đối với các nhà phát triển và nhà nghiên cứu, việc triển khai nhận diện hình ảnh đã trở nên dễ tiếp cận hơn đáng kể với các model hiện đại như YOLO26, hỗ trợ phân loại, phát hiện và phân đoạn nguyên bản. Ví dụ sau đây trình bày cách thực hiện nhận diện (cụ thể là phát hiện đối tượng) trên một hình ảnh bằng cách sử dụng gói Python ultralytics.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()Đối với các đội ngũ muốn chú thích tập dữ liệu của riêng họ và huấn luyện các model tùy chỉnh trên đám mây, Ultralytics Platform cung cấp một môi trường hợp lý hóa để quản lý toàn bộ vòng đời của một dự án nhận diện hình ảnh, từ thu thập dữ liệu đến triển khai.
Link to this sectionXu hướng tương lai#
Khi sức mạnh tính toán tăng lên, nhận diện hình ảnh đang tiến hóa thành video understanding, nơi các hệ thống phân tích ngữ cảnh thời gian qua các khung hình. Hơn nữa, việc tích hợp generative AI cho phép các hệ thống không chỉ nhận diện hình ảnh mà còn tạo ra các mô tả bằng văn bản chi tiết về chúng, thu hẹp khoảng cách giữa Natural Language Processing (NLP) và thị giác.






