Khám phá công nghệ phân loại hình ảnh với Ultralytics YOLO: đào tạo các mô hình tùy chỉnh cho chăm sóc sức khỏe, nông nghiệp, bán lẻ, v.v. bằng các công cụ tiên tiến.
Phân loại hình ảnh là một nhiệm vụ cơ bản trong thị giác máy tính (CV) , bao gồm việc gán một nhãn duy nhất, cụ thể cho toàn bộ hình ảnh từ một tập hợp các danh mục được xác định trước. Mục tiêu chính là xác định chủ thể chính của hình ảnh và phân loại nó cho phù hợp. Ví dụ: một mô hình phân loại sẽ phân tích hình ảnh và đưa ra một nhãn như "mèo", "chó" hoặc "ô tô". Nhiệm vụ này tạo thành nền tảng cho nhiều ứng dụng CV phức tạp hơn và là một thành phần cốt lõi của học máy (ML) . Quá trình này dựa trên các thuật toán, đáng chú ý nhất là Mạng Nơ-ron Tích chập (CNN) , để học các đặc điểm phân biệt từ các tập dữ liệu lớn đã được gán nhãn.
Các mô hình phân loại hình ảnh được huấn luyện bằng phương pháp học có giám sát , trong đó chúng được cung cấp một lượng lớn hình ảnh đã được gắn nhãn thủ công với đúng lớp. Trong quá trình huấn luyện, mạng nơ-ron học cách nhận dạng các mẫu, kết cấu, hình dạng và tổ hợp màu sắc liên quan đến từng loại. Việc học này được thực hiện thông qua một quá trình gọi là lan truyền ngược (backpropagation) , điều chỉnh các tham số nội bộ hoặc trọng số của mô hình để giảm thiểu sự khác biệt giữa dự đoán và nhãn thực tế.
Các mô hình phân loại hiện đại thường sử dụng kiến trúc học sâu với nhiều lớp. Các lớp đầu tiên có thể học cách nhận dạng các đặc điểm đơn giản như cạnh và góc, trong khi các lớp sâu hơn kết hợp chúng để nhận dạng các cấu trúc phức tạp hơn như mắt, bánh xe hoặc khuôn mặt. Lớp cuối cùng của mạng thường sử dụng hàm softmax để tạo ra điểm xác suất cho mỗi lớp có thể. Lớp có xác suất cao nhất được chọn làm dự đoán cuối cùng. Chìa khóa của quá trình này là trích xuất đặc điểm , trong đó mô hình tự động học các đặc điểm có nhiều thông tin nhất cho tác vụ phân loại.
Phân loại hình ảnh được sử dụng trong nhiều ngành công nghiệp để tự động hóa và mở rộng quy mô các tác vụ nhận dạng hình ảnh. Hai ví dụ nổi bật bao gồm:
Mặc dù có liên quan chặt chẽ với các tác vụ thị giác máy tính khác, phân loại hình ảnh có một mục đích riêng biệt. Điều quan trọng là phải phân biệt nó với:
Tóm lại, phân loại cho bạn biết những gì có trong hình ảnh, phát hiện cho bạn biết những gì và ở đâu , và phân đoạn cung cấp bản đồ chi tiết ở cấp độ pixel về mọi thứ trong cảnh.
Mặc dù nổi tiếng về khả năng phát hiện đối tượng, các mô hình YOLO của Ultralytics cũng xuất sắc trong các tác vụ phân loại hình ảnh . Các mô hình tiên tiến như YOLO11 có thể dễ dàng được đào tạo hoặc tinh chỉnh trên các tập dữ liệu tùy chỉnh bằng gói Python trực quan của Ultralytics hoặc nền tảng Ultralytics HUB không cần mã.
Tài liệu của chúng tôi cung cấp nhiều tài nguyên, bao gồm các mẹo huấn luyện mô hình và hướng dẫn chi tiết về cách sử dụng YOLO11 để phân loại ảnh . Các nhà phát triển có thể tận dụng các mô hình đã được huấn luyện sẵn trên các bộ dữ liệu chuẩn như ImageNet , CIFAR-100 và Caltech-101 , hoặc huấn luyện một mô hình mới từ đầu. Đối với những người quan tâm đến những tiến bộ mới nhất, các tài nguyên như Papers With Code cung cấp tổng quan toàn diện về các mô hình hiệu suất cao nhất. Bạn cũng có thể so sánh hiệu suất của mô hình YOLO trên các chuẩn chuẩn tiêu chuẩn. Các nền tảng như PyTorch và TensorFlow cung cấp nền tảng để xây dựng và huấn luyện các mô hình này.