Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Phân loại ảnh

Khám phá phân loại ảnh với Ultralytics YOLO: huấn luyện các mô hình tùy chỉnh cho lĩnh vực chăm sóc sức khỏe, nông nghiệp, bán lẻ, v.v. bằng các công cụ tiên tiến.

Phân loại ảnh là một nhiệm vụ cơ bản trong thị giác máy tính (CV), liên quan đến việc gán một nhãn cụ thể duy nhất cho toàn bộ ảnh từ một tập hợp các danh mục được xác định trước. Mục tiêu chính là xác định chủ thể chính của ảnh và phân loại nó cho phù hợp. Ví dụ: một mô hình phân loại sẽ phân tích một hình ảnh và đưa ra một nhãn như "mèo", "chó" hoặc "xe hơi". Nhiệm vụ này tạo thành cơ sở cho nhiều ứng dụng CV phức tạp hơn và là một thành phần cốt lõi của học máy (ML). Quá trình này dựa trên các thuật toán, đáng chú ý nhất là Mạng nơ-ron tích chập (CNNs), để học các đặc điểm phân biệt từ bộ dữ liệu lớn đã được gắn nhãn.

Cách thức hoạt động của phân loại ảnh

Các mô hình phân loại ảnh được huấn luyện bằng cách sử dụng học có giám sát, trong đó chúng được cung cấp một số lượng lớn hình ảnh đã được gắn nhãn thủ công với lớp chính xác. Trong quá trình huấn luyện, mạng nơ-ron học cách xác định các mẫu, kết cấu, hình dạng và sự kết hợp màu sắc liên quan đến từng danh mục. Quá trình học này đạt được thông qua một quy trình gọi là lan truyền ngược, quy trình này điều chỉnh các tham số bên trong của mô hình, hoặc trọng số, để giảm thiểu sự khác biệt giữa các dự đoán của nó và các nhãn thực tế.

Các mô hình phân loại hiện đại thường sử dụng các kiến trúc học sâu với nhiều lớp. Các lớp ban đầu có thể học cách nhận dạng các đặc trưng đơn giản như cạnh và góc, trong khi các lớp sâu hơn kết hợp chúng để xác định các cấu trúc phức tạp hơn như mắt, bánh xe hoặc khuôn mặt. Lớp cuối cùng của mạng thường sử dụng hàm softmax để tạo ra điểm xác suất cho mỗi lớp có thể. Lớp có xác suất cao nhất được chọn làm dự đoán cuối cùng. Điểm mấu chốt của quá trình này là trích xuất đặc trưng, trong đó mô hình tự động học các đặc trưng giàu thông tin nhất cho tác vụ phân loại.

Ứng dụng của Phân loại ảnh (Image Classification)

Phân loại ảnh được sử dụng trong nhiều ngành công nghiệp để tự động hóa và mở rộng quy mô các tác vụ nhận dạng hình ảnh. Hai ví dụ nổi bật bao gồm:

  1. Phân tích hình ảnh y tế: Trong chăm sóc sức khỏe, các mô hình phân loại phân tích ảnh chụp y tế như X-quang, MRI và CT để giúp các bác sĩ радиолог phát hiện bệnh. Ví dụ: một mô hình có thể được huấn luyện trên hàng nghìn ảnh chụp nhũ ảnh để phân loại hình ảnh là "lành tính" hoặc "ác tính", hỗ trợ phát hiện sớm ung thư vú. Điều này có thể dẫn đến chẩn đoán nhanh hơn và giảm lỗi do con người. Để biết thêm về điều này, hãy xem tổng quan của Hiệp hội Ung thư Hoa Kỳ về AI trong phát hiện ung thư.
  2. Công nghệ Nông nghiệp: Nông dân sử dụng phân loại hình ảnh để theo dõi sức khỏe cây trồng từ hình ảnh được chụp bởi máy bay không người lái hoặc vệ tinh. Một mô hình có thể phân loại hình ảnh lá cây thành các loại như "khỏe mạnh", "bệnh" hoặc "nhiễm sâu bệnh." Điều này cho phép ứng dụng có mục tiêu thuốc trừ sâu hoặc phân bón, cải thiện năng suất cây trồng và thúc đẩy nông nghiệp bền vững. Tìm hiểu thêm về cách Ultralytics hỗ trợ AI trong nông nghiệp.

So sánh phân loại ảnh với các tác vụ liên quan

Mặc dù liên quan chặt chẽ đến các tác vụ thị giác máy tính khác, phân loại hình ảnh có một mục đích riêng biệt. Điều quan trọng là phải phân biệt nó với:

  • Phát hiện đối tượng: Nhiệm vụ này tiến thêm một bước so với phân loại. Thay vì gán một nhãn cho toàn bộ hình ảnh, phát hiện đối tượng xác định nhiều đối tượng trong một hình ảnh và vẽ một hộp giới hạn xung quanh mỗi đối tượng, đồng thời gán một nhãn lớp cho mỗi hộp. Ví dụ: nó sẽ không chỉ gắn nhãn một hình ảnh là "cảnh đường phố," mà sẽ định vị và phân loại riêng các "ô tô," "người đi bộ" và "đèn giao thông."
  • Phân vùng ảnh (Image Segmentation): Tác vụ này cung cấp sự hiểu biết chi tiết nhất về một hình ảnh bằng cách phân loại từng pixel. Có nhiều loại khác nhau, bao gồm phân vùng ngữ nghĩa (semantic segmentation), gán một lớp cho mọi pixel (ví dụ: tất cả các pixel thuộc về ô tô có cùng một màu) và phân vùng thể hiện (instance segmentation), phân biệt giữa các thể hiện khác nhau của cùng một đối tượng (ví dụ: mỗi chiếc xe có một màu khác nhau). Mức độ chi tiết này rất quan trọng đối với các ứng dụng như xe tự hành (autonomous vehicles).

Tóm lại, phân loại cho bạn biết cái gì có trong một hình ảnh, phát hiện cho bạn biết cái gìở đâu, và phân đoạn cung cấp một bản đồ chi tiết, ở cấp độ pixel của mọi thứ trong cảnh.

Phân loại ảnh với Ultralytics

Mặc dù nổi tiếng về khả năng object detection (phát hiện đối tượng), các mô hình Ultralytics YOLO cũng vượt trội trong các tác vụ phân loại ảnh (image classification). Các mô hình hiện đại như YOLO11 có thể dễ dàng được huấn luyện hoặc tinh chỉnh trên các tập dữ liệu tùy chỉnh bằng cách sử dụng gói Ultralytics Python trực quan hoặc nền tảng Ultralytics HUB không cần code.

Tài liệu của chúng tôi cung cấp các tài nguyên phong phú, bao gồm các mẹo huấn luyện mô hình và hướng dẫn chi tiết về cách sử dụng YOLO11 để phân loại hình ảnh. Các nhà phát triển có thể tận dụng các mô hình được huấn luyện trước trên các bộ dữ liệu chuẩn như ImageNet, CIFAR-100Caltech-101 hoặc huấn luyện một mô hình mới từ đầu. Đối với những người quan tâm đến những tiến bộ mới nhất, các tài nguyên như Papers With Code cung cấp một cái nhìn tổng quan toàn diện về các mô hình hoạt động hàng đầu. Bạn cũng có thể so sánh hiệu suất của mô hình YOLO trên các chuẩn mực tiêu chuẩn. Các framework như PyTorchTensorFlow cung cấp nền tảng để xây dựng và huấn luyện các mô hình này.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard