Khám phá phân loại ảnh với Ultralytics YOLO: huấn luyện các mô hình tùy chỉnh cho lĩnh vực chăm sóc sức khỏe, nông nghiệp, bán lẻ, v.v. bằng các công cụ tiên tiến.
Phân loại ảnh là một nhiệm vụ cơ bản trong thị giác máy tính (CV), liên quan đến việc gán một nhãn cụ thể duy nhất cho toàn bộ ảnh từ một tập hợp các danh mục được xác định trước. Mục tiêu chính là xác định chủ thể chính của ảnh và phân loại nó cho phù hợp. Ví dụ: một mô hình phân loại sẽ phân tích một hình ảnh và đưa ra một nhãn như "mèo", "chó" hoặc "xe hơi". Nhiệm vụ này tạo thành cơ sở cho nhiều ứng dụng CV phức tạp hơn và là một thành phần cốt lõi của học máy (ML). Quá trình này dựa trên các thuật toán, đáng chú ý nhất là Mạng nơ-ron tích chập (CNNs), để học các đặc điểm phân biệt từ bộ dữ liệu lớn đã được gắn nhãn.
Các mô hình phân loại ảnh được huấn luyện bằng cách sử dụng học có giám sát, trong đó chúng được cung cấp một số lượng lớn hình ảnh đã được gắn nhãn thủ công với lớp chính xác. Trong quá trình huấn luyện, mạng nơ-ron học cách xác định các mẫu, kết cấu, hình dạng và sự kết hợp màu sắc liên quan đến từng danh mục. Quá trình học này đạt được thông qua một quy trình gọi là lan truyền ngược, quy trình này điều chỉnh các tham số bên trong của mô hình, hoặc trọng số, để giảm thiểu sự khác biệt giữa các dự đoán của nó và các nhãn thực tế.
Các mô hình phân loại hiện đại thường sử dụng các kiến trúc học sâu với nhiều lớp. Các lớp ban đầu có thể học cách nhận dạng các đặc trưng đơn giản như cạnh và góc, trong khi các lớp sâu hơn kết hợp chúng để xác định các cấu trúc phức tạp hơn như mắt, bánh xe hoặc khuôn mặt. Lớp cuối cùng của mạng thường sử dụng hàm softmax để tạo ra điểm xác suất cho mỗi lớp có thể. Lớp có xác suất cao nhất được chọn làm dự đoán cuối cùng. Điểm mấu chốt của quá trình này là trích xuất đặc trưng, trong đó mô hình tự động học các đặc trưng giàu thông tin nhất cho tác vụ phân loại.
Phân loại ảnh được sử dụng trong nhiều ngành công nghiệp để tự động hóa và mở rộng quy mô các tác vụ nhận dạng hình ảnh. Hai ví dụ nổi bật bao gồm:
Mặc dù liên quan chặt chẽ đến các tác vụ thị giác máy tính khác, phân loại hình ảnh có một mục đích riêng biệt. Điều quan trọng là phải phân biệt nó với:
Tóm lại, phân loại cho bạn biết cái gì có trong một hình ảnh, phát hiện cho bạn biết cái gì và ở đâu, và phân đoạn cung cấp một bản đồ chi tiết, ở cấp độ pixel của mọi thứ trong cảnh.
Mặc dù nổi tiếng về khả năng object detection (phát hiện đối tượng), các mô hình Ultralytics YOLO cũng vượt trội trong các tác vụ phân loại ảnh (image classification). Các mô hình hiện đại như YOLO11 có thể dễ dàng được huấn luyện hoặc tinh chỉnh trên các tập dữ liệu tùy chỉnh bằng cách sử dụng gói Ultralytics Python trực quan hoặc nền tảng Ultralytics HUB không cần code.
Tài liệu của chúng tôi cung cấp các tài nguyên phong phú, bao gồm các mẹo huấn luyện mô hình và hướng dẫn chi tiết về cách sử dụng YOLO11 để phân loại hình ảnh. Các nhà phát triển có thể tận dụng các mô hình được huấn luyện trước trên các bộ dữ liệu chuẩn như ImageNet, CIFAR-100 và Caltech-101 hoặc huấn luyện một mô hình mới từ đầu. Đối với những người quan tâm đến những tiến bộ mới nhất, các tài nguyên như Papers With Code cung cấp một cái nhìn tổng quan toàn diện về các mô hình hoạt động hàng đầu. Bạn cũng có thể so sánh hiệu suất của mô hình YOLO trên các chuẩn mực tiêu chuẩn. Các framework như PyTorch và TensorFlow cung cấp nền tảng để xây dựng và huấn luyện các mô hình này.