Thuật ngữ

Nhận dạng hình ảnh

Khám phá cách nhận dạng hình ảnh hỗ trợ AI phân loại và hiểu hình ảnh, thúc đẩy đổi mới trong chăm sóc sức khỏe, bán lẻ, an ninh, v.v.

Nhận dạng hình ảnh là một lĩnh vực rộng lớn của thị giác máy tính , cho phép máy móc nhận dạng và diễn giải các vật thể, con người, địa điểm và hành động trong hình ảnh hoặc video kỹ thuật số. Đây là một công nghệ nền tảng hỗ trợ vô số ứng dụng, từ mở khóa điện thoại bằng khuôn mặt đến cho phép xe tự hành di chuyển trong các môi trường phức tạp. Về cốt lõi, nhận dạng hình ảnh sử dụng các thuật toán học máy (ML)học sâu (DL) để phân tích các điểm ảnh và trích xuất các mẫu có ý nghĩa, mô phỏng khả năng hiểu thông tin hình ảnh của con người.

Nhận dạng hình ảnh so với các nhiệm vụ liên quan

Mặc dù thường được dùng thay thế cho nhau, nhận dạng hình ảnh là một thuật ngữ chung bao gồm một số nhiệm vụ cụ thể hơn. Điều quan trọng là phải phân biệt nó với các lĩnh vực phụ của nó:

  • Phân loại hình ảnh : Đây là hình thức nhận dạng hình ảnh đơn giản nhất. Nó bao gồm việc gán một nhãn duy nhất cho toàn bộ hình ảnh từ một tập hợp các danh mục được xác định trước. Ví dụ: một mô hình có thể phân loại một hình ảnh thành "mèo", "chó" hoặc "ô tô". Đầu ra là một nhãn duy nhất cho toàn bộ hình ảnh.
  • Phát hiện Đối tượng : Một nhiệm vụ nâng cao hơn, phát hiện đối tượng không chỉ phân loại các đối tượng trong ảnh mà còn định vị chúng, thường bằng cách vẽ một khung giới hạn xung quanh mỗi đối tượng. Ví dụ, xe tự lái sử dụng tính năng phát hiện đối tượng để xác định và định vị người đi bộ, các phương tiện khác và biển báo giao thông.
  • Phân đoạn hình ảnh : Nhiệm vụ này tiến thêm một bước nữa bằng cách xác định các pixel chính xác thuộc về từng đối tượng trong ảnh. Nó tạo ra một mặt nạ chi tiết cho từng đối tượng, điều này rất quan trọng đối với các ứng dụng đòi hỏi hiểu biết sâu sắc về hình dạng và ranh giới của đối tượng, chẳng hạn như trong phân tích hình ảnh y tế .

Nhận dạng hình ảnh hoạt động như thế nào

Nhận dạng hình ảnh hiện đại chủ yếu được hỗ trợ bởi Mạng Nơ-ron Tích chập (CNN) , một loại mạng nơ-ron đặc biệt hiệu quả trong việc xử lý dữ liệu dạng lưới như hình ảnh. Quá trình này thường bao gồm:

  1. Thu thập dữ liệu: Một tập dữ liệu lớn các hình ảnh được gắn nhãn được thu thập. Các ví dụ nổi tiếng bao gồm ImageNetCOCO .
  2. Huấn luyện Mô hình: CNN được huấn luyện trên tập dữ liệu này. Trong quá trình huấn luyện , mạng học cách nhận dạng các mẫu - từ các cạnh và kết cấu đơn giản đến các bộ phận vật thể phức tạp - thông qua một quy trình gọi là trích xuất đặc trưng . Trọng số của mô hình được điều chỉnh để giảm thiểu sự khác biệt giữa dự đoán của nó và nhãn thực tế.
  3. Suy luận: Sau khi được đào tạo, mô hình có thể đưa ra dự đoán dựa trên những hình ảnh mới, chưa từng thấy. Quá trình áp dụng mô hình đã được đào tạo này được gọi là suy luận .

Ứng dụng trong thế giới thực

Nhận dạng hình ảnh đã trở thành một phần không thể thiếu của nhiều ngành công nghiệp:

  • Chăm sóc sức khỏe: Trong lĩnh vực AI chăm sóc sức khỏe , nhận dạng hình ảnh giúp các bác sĩ X-quang phát hiện khối u, gãy xương và các bất thường khác trên phim chụp X-quang, MRI và CT. Ví dụ, các mô hình có thể được đào tạo trên bộ dữ liệu hình ảnh y tế để xác định khối u não với độ chính xác cao, hỗ trợ bác sĩ chẩn đoán nhanh hơn.
  • Bán lẻ: Các nhà bán lẻ sử dụng nhận dạng hình ảnh để quản lý hàng tồn kho bằng cách lắp đặt camera giám sát kệ hàng để phát hiện khi sản phẩm sắp hết. Tính năng tìm kiếm trực quan trên các trang thương mại điện tử, cho phép khách hàng tải ảnh lên để tìm các sản phẩm tương tự, cũng là một ứng dụng phổ biến khác. Bạn có thể tìm hiểu thêm về tính năng này trên trang AI trong bán lẻ của chúng tôi.

Công cụ và đào tạo

Phát triển các ứng dụng nhận dạng hình ảnh thường liên quan đến việc sử dụng các thư viện và khuôn khổ chuyên biệt. Các công nghệ chính bao gồm:

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard