Thuật ngữ

Phân loại hình ảnh

Khám phá công nghệ phân loại hình ảnh với Ultralytics YOLO: đào tạo các mô hình tùy chỉnh cho chăm sóc sức khỏe, nông nghiệp, bán lẻ, v.v. bằng các công cụ tiên tiến.

Phân loại hình ảnh là một nhiệm vụ cơ bản trong thị giác máy tính (CV) , bao gồm việc gán một nhãn duy nhất, cụ thể cho toàn bộ hình ảnh từ một tập hợp các danh mục được xác định trước. Mục tiêu chính là xác định chủ thể chính của hình ảnh và phân loại nó cho phù hợp. Ví dụ: một mô hình phân loại sẽ phân tích hình ảnh và đưa ra một nhãn như "mèo", "chó" hoặc "ô tô". Nhiệm vụ này tạo thành nền tảng cho nhiều ứng dụng CV phức tạp hơn và là một thành phần cốt lõi của học máy (ML) . Quá trình này dựa trên các thuật toán, đáng chú ý nhất là Mạng Nơ-ron Tích chập (CNN) , để học các đặc điểm phân biệt từ các tập dữ liệu lớn đã được gán nhãn.

Phân loại hình ảnh hoạt động như thế nào

Các mô hình phân loại hình ảnh được huấn luyện bằng phương pháp học có giám sát , trong đó chúng được cung cấp một lượng lớn hình ảnh đã được gắn nhãn thủ công với đúng lớp. Trong quá trình huấn luyện, mạng nơ-ron học cách nhận dạng các mẫu, kết cấu, hình dạng và tổ hợp màu sắc liên quan đến từng loại. Việc học này được thực hiện thông qua một quá trình gọi là lan truyền ngược (backpropagation) , điều chỉnh các tham số nội bộ hoặc trọng số của mô hình để giảm thiểu sự khác biệt giữa dự đoán và nhãn thực tế.

Các mô hình phân loại hiện đại thường sử dụng kiến trúc học sâu với nhiều lớp. Các lớp đầu tiên có thể học cách nhận dạng các đặc điểm đơn giản như cạnh và góc, trong khi các lớp sâu hơn kết hợp chúng để nhận dạng các cấu trúc phức tạp hơn như mắt, bánh xe hoặc khuôn mặt. Lớp cuối cùng của mạng thường sử dụng hàm softmax để tạo ra điểm xác suất cho mỗi lớp có thể. Lớp có xác suất cao nhất được chọn làm dự đoán cuối cùng. Chìa khóa của quá trình này là trích xuất đặc điểm , trong đó mô hình tự động học các đặc điểm có nhiều thông tin nhất cho tác vụ phân loại.

Ứng dụng của phân loại hình ảnh

Phân loại hình ảnh được sử dụng trong nhiều ngành công nghiệp để tự động hóa và mở rộng quy mô các tác vụ nhận dạng hình ảnh. Hai ví dụ nổi bật bao gồm:

  1. Phân tích Hình ảnh Y tế : Trong chăm sóc sức khỏe, các mô hình phân loại phân tích các hình ảnh chụp X-quang, MRI và CT để giúp các bác sĩ X-quang phát hiện bệnh. Ví dụ, một mô hình có thể được đào tạo trên hàng nghìn ảnh chụp nhũ ảnh để phân loại hình ảnh là "lành tính" hay "ác tính", hỗ trợ phát hiện sớm ung thư vú. Điều này có thể giúp chẩn đoán nhanh hơn và giảm thiểu sai sót của con người. Để biết thêm về vấn đề này, hãy xem bài viết tổng quan của Hiệp hội Ung thư Hoa Kỳ về AI trong phát hiện ung thư .
  2. Công nghệ Nông nghiệp: Nông dân sử dụng công nghệ phân loại hình ảnh để theo dõi sức khỏe cây trồng từ hình ảnh chụp bằng máy bay không người lái hoặc vệ tinh. Một mô hình có thể phân loại hình ảnh lá cây thành các loại như "khỏe mạnh", "bệnh tật" hoặc "bị sâu bệnh". Điều này cho phép sử dụng thuốc trừ sâu hoặc phân bón có mục tiêu, cải thiện năng suất cây trồng và thúc đẩy canh tác bền vững. Tìm hiểu thêm về cách Ultralytics hỗ trợ AI trong nông nghiệp .

Phân loại hình ảnh so với các nhiệm vụ liên quan

Mặc dù có liên quan chặt chẽ với các tác vụ thị giác máy tính khác, phân loại hình ảnh có một mục đích riêng biệt. Điều quan trọng là phải phân biệt nó với:

  • Phát hiện Đối tượng : Nhiệm vụ này tiến xa hơn phân loại. Thay vì gán một nhãn cho toàn bộ ảnh, phát hiện đối tượng sẽ nhận diện nhiều đối tượng trong một ảnh và vẽ một khung bao quanh mỗi đối tượng, đồng thời gán nhãn lớp cho mỗi khung. Ví dụ: nó không chỉ dán nhãn "cảnh đường phố" cho ảnh mà còn định vị và phân loại từng "ô tô", "người đi bộ" và "đèn giao thông".
  • Phân đoạn hình ảnh : Nhiệm vụ này cung cấp hiểu biết chi tiết nhất về hình ảnh bằng cách phân loại từng pixel. Có nhiều loại phân đoạn khác nhau, bao gồm phân đoạn ngữ nghĩa , gán một lớp cho mỗi pixel (ví dụ: tất cả các pixel thuộc về ô tô đều cùng một màu), và phân đoạn thể hiện , phân biệt các thể hiện khác nhau của cùng một đối tượng (ví dụ: mỗi ô tô có một màu khác nhau). Mức độ chi tiết này rất quan trọng đối với các ứng dụng như xe tự hành .

Tóm lại, phân loại cho bạn biết những gì có trong hình ảnh, phát hiện cho bạn biết những gìở đâu , và phân đoạn cung cấp bản đồ chi tiết ở cấp độ pixel về mọi thứ trong cảnh.

Phân loại hình ảnh với Ultralytics

Mặc dù nổi tiếng về khả năng phát hiện đối tượng, các mô hình YOLO của Ultralytics cũng xuất sắc trong các tác vụ phân loại hình ảnh . Các mô hình tiên tiến như YOLO11 có thể dễ dàng được đào tạo hoặc tinh chỉnh trên các tập dữ liệu tùy chỉnh bằng gói Python trực quan của Ultralytics hoặc nền tảng Ultralytics HUB không cần mã.

Tài liệu của chúng tôi cung cấp nhiều tài nguyên, bao gồm các mẹo huấn luyện mô hình và hướng dẫn chi tiết về cách sử dụng YOLO11 để phân loại ảnh . Các nhà phát triển có thể tận dụng các mô hình đã được huấn luyện sẵn trên các bộ dữ liệu chuẩn như ImageNet , CIFAR-100Caltech-101 , hoặc huấn luyện một mô hình mới từ đầu. Đối với những người quan tâm đến những tiến bộ mới nhất, các tài nguyên như Papers With Code cung cấp tổng quan toàn diện về các mô hình hiệu suất cao nhất. Bạn cũng có thể so sánh hiệu suất của mô hình YOLO trên các chuẩn chuẩn tiêu chuẩn. Các nền tảng như PyTorchTensorFlow cung cấp nền tảng để xây dựng và huấn luyện các mô hình này.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard