Khám phá phân loại hình ảnh với Ultralytics YOLO : đào tạo các mô hình tùy chỉnh cho chăm sóc sức khỏe, nông nghiệp, bán lẻ, v.v. bằng các công cụ tiên tiến.
Phân loại ảnh là một nhiệm vụ nền tảng trong thị giác máy tính (CV), trong đó mô hình học máy phân tích toàn bộ hình ảnh và gán cho nó một nhãn duy nhất từ một tập hợp các danh mục được xác định trước. Về cơ bản, nó trả lời câu hỏi, "Đối tượng chính của bức ảnh này là gì?" Là một thành phần cốt lõi của trí tuệ nhân tạo (AI) , quá trình này cho phép các hệ thống tự động tổ chức, phân loại và diễn giải dữ liệu hình ảnh trên quy mô lớn. Mặc dù có vẻ đơn giản đối với mắt người, nhưng việc cho phép máy tính nhận dạng các mẫu đòi hỏi các thuật toán học máy (ML) phức tạp để thu hẹp khoảng cách giữa các điểm ảnh thô và các khái niệm có ý nghĩa.
Phân loại hình ảnh hiện đại dựa rất nhiều vào các kiến trúc học sâu (DL) được gọi là Mạng nơ-ron tích chập (CNN) . Các mạng này được thiết kế để mô phỏng cách vỏ não thị giác sinh học xử lý thông tin. Thông qua một quá trình gọi là trích xuất đặc trưng , mô hình học cách xác định các thuộc tính cấp thấp như cạnh và kết cấu ở các lớp đầu tiên, cuối cùng kết hợp chúng để nhận dạng các hình dạng và đối tượng phức tạp ở các lớp sâu hơn.
Để xây dựng bộ phân loại, các nhà phát triển sử dụng học có giám sát , cung cấp cho mô hình lượng lớn dữ liệu huấn luyện chứa các ví dụ được gắn nhãn. Các tập dữ liệu công khai lớn như ImageNet đóng vai trò quan trọng trong việc nâng cao độ chính xác của các hệ thống này. Trong giai đoạn suy luận, mô hình đưa ra điểm xác suất cho mỗi danh mục, thường sử dụng hàm softmax để xác định lớp có khả năng nhất.
Điều quan trọng là phải phân biệt phân loại ảnh với các khả năng thị giác máy tính liên quan, vì việc lựa chọn kỹ thuật phụ thuộc vào vấn đề cụ thể:
Phân loại hình ảnh là nền tảng cho vô số ứng dụng trí tuệ nhân tạo thực tế trong nhiều ngành công nghiệp khác nhau:
Trong lĩnh vực y tế, các mô hình phân loại hỗ trợ các bác sĩ X quang bằng cách phân tích các hình ảnh chẩn đoán. Các công cụ phân tích hình ảnh y tế có thể nhanh chóng phân loại ảnh chụp X-quang hoặc MRI là "bình thường" hoặc "bất thường", hoặc xác định các tình trạng cụ thể như phát hiện khối u , cho phép phân loại và chẩn đoán bệnh nhân nhanh hơn.
Factories utilize automated visual inspection to maintain product standards. Cameras on assembly lines capture images of components, and classification models instantly label them as "pass" or "fail" based on visible defects. This automated quality control ensures only non-defective items reach the packaging stage.
Nông dân tận dụng trí tuệ nhân tạo (AI) trong nông nghiệp để theo dõi sức khỏe cây trồng. Bằng cách phân loại hình ảnh được chụp bởi máy bay không người lái hoặc điện thoại thông minh, hệ thống có thể xác định các dấu hiệu bệnh tật, thiếu hụt chất dinh dưỡng hoặc sự phá hoại của sâu bệnh, cho phép can thiệp nông nghiệp chính xác và có mục tiêu.
Khung phần mềm Ultralytics YOLO26 , nổi tiếng về khả năng phát hiện đối tượng, cũng cung cấp hiệu năng hàng đầu cho các tác vụ phân loại hình ảnh . Kiến trúc của nó được tối ưu hóa về tốc độ và độ chính xác, khiến nó phù hợp với các ứng dụng thời gian thực.
Dưới đây là một ví dụ ngắn gọn về cách tải mô hình đã được huấn luyện trước và classify một hình ảnh sử dụng
ultralytics Python bưu kiện:
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Run inference on an image source
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Đối với các nhóm muốn tối ưu hóa quy trình làm việc, Nền tảng Ultralytics đơn giản hóa toàn bộ quy trình. Nó cho phép người dùng quản lý tập dữ liệu phân loại , thực hiện huấn luyện dựa trên đám mây và triển khai mô hình ở nhiều định dạng khác nhau như ONNX hoặc TensorRT mà không cần cơ sở hạ tầng lập trình phức tạp.