Bảng chú giải thuật ngữ

Phân loại ảnh

Khám phá những nguyên tắc cơ bản của phân loại hình ảnh, từ mạng nơ-ron tích chập (CNN) đến các ứng dụng AI thực tế. Học cách huấn luyện và triển khai các thuật toán phân loại tiên tiến nhất. Ultralytics YOLO26.

Phân loại ảnh là một nhiệm vụ nền tảng trong thị giác máy tính (CV), trong đó mô hình học máy phân tích toàn bộ hình ảnh và gán cho nó một nhãn duy nhất từ một tập hợp các danh mục được xác định trước. Về cơ bản, nó trả lời câu hỏi, "Đối tượng chính của bức ảnh này là gì?" Là một thành phần cốt lõi của trí tuệ nhân tạo (AI) , quá trình này cho phép các hệ thống tự động tổ chức, phân loại và diễn giải dữ liệu hình ảnh trên quy mô lớn. Mặc dù có vẻ đơn giản đối với mắt người, nhưng việc cho phép máy tính nhận dạng các mẫu đòi hỏi các thuật toán học máy (ML) phức tạp để thu hẹp khoảng cách giữa các điểm ảnh thô và các khái niệm có ý nghĩa.

Cơ chế đằng sau sự phân loại

Phân loại hình ảnh hiện đại dựa rất nhiều vào các kiến trúc học sâu (DL) được gọi là Mạng nơ-ron tích chập (CNN) . Các mạng này được thiết kế để mô phỏng cách vỏ não thị giác sinh học xử lý thông tin. Thông qua một quá trình gọi là trích xuất đặc trưng , mô hình học cách xác định các thuộc tính cấp thấp như cạnh và kết cấu ở các lớp đầu tiên, cuối cùng kết hợp chúng để nhận dạng các hình dạng và đối tượng phức tạp ở các lớp sâu hơn.

Để xây dựng bộ phân loại, các nhà phát triển sử dụng học có giám sát , cung cấp cho mô hình lượng lớn dữ liệu huấn luyện chứa các ví dụ được gắn nhãn. Các tập dữ liệu công khai lớn như ImageNet đóng vai trò quan trọng trong việc nâng cao độ chính xác của các hệ thống này. Trong giai đoạn suy luận, mô hình đưa ra điểm xác suất cho mỗi danh mục, thường sử dụng hàm softmax để xác định lớp có khả năng nhất.

Phân loại so với các nhiệm vụ thị giác khác

Điều quan trọng là phải phân biệt phân loại ảnh với các khả năng thị giác máy tính liên quan, vì việc lựa chọn kỹ thuật phụ thuộc vào vấn đề cụ thể:

Phân loại so với phát hiện đối tượng : Phân loại gán một nhãn cho toàn bộ hình ảnh. Ngược lại, phát hiện đối tượng xác định vị trí của nhiều đối tượng trong một khung cảnh bằng cách vẽ một khung bao quanh mỗi đối tượng.
Phân loại so với phân đoạn ảnh : Trong khi phân loại xem xét ngữ cảnh tổng thể, phân đoạn cung cấp độ chính xác ở cấp độ pixel. Phân đoạn ngữ nghĩa phân loại từng pixel riêng lẻ, cho phép xác định ranh giới chính xác giữa các đối tượng và nền.

Các Ứng dụng Thực tế

Phân loại hình ảnh là nền tảng cho vô số ứng dụng trí tuệ nhân tạo thực tế trong nhiều ngành công nghiệp khác nhau:

Chẩn đoán chăm sóc sức khỏe

Trong lĩnh vực y tế, các mô hình phân loại hỗ trợ các bác sĩ X quang bằng cách phân tích các hình ảnh chẩn đoán. Các công cụ phân tích hình ảnh y tế có thể nhanh chóng phân loại ảnh chụp X-quang hoặc MRI là "bình thường" hoặc "bất thường", hoặc xác định các tình trạng cụ thể như phát hiện khối u , cho phép phân loại và chẩn đoán bệnh nhân nhanh hơn.

Kiểm soát chất lượng trong sản xuất

Các nhà máy sử dụng hệ thống kiểm tra hình ảnh tự động để duy trì tiêu chuẩn sản phẩm. Camera trên dây chuyền lắp ráp chụp ảnh các linh kiện, và các mô hình phân loại ngay lập tức dán nhãn chúng là "đạt" hoặc "không đạt" dựa trên các khuyết tật có thể nhìn thấy. Hệ thống kiểm soát chất lượng tự động này đảm bảo chỉ những sản phẩm không bị lỗi mới được đưa đến giai đoạn đóng gói.

Nông nghiệp thông minh

Nông dân tận dụng trí tuệ nhân tạo (AI) trong nông nghiệp để theo dõi sức khỏe cây trồng. Bằng cách phân loại hình ảnh được chụp bởi máy bay không người lái hoặc điện thoại thông minh, hệ thống có thể xác định các dấu hiệu bệnh tật, thiếu hụt chất dinh dưỡng hoặc sự phá hoại của sâu bệnh, cho phép can thiệp nông nghiệp chính xác và có mục tiêu.

Triển khai phân loại với YOLO26

Khung phần mềm Ultralytics YOLO26 , nổi tiếng về khả năng phát hiện đối tượng, cũng cung cấp hiệu năng hàng đầu cho các tác vụ phân loại hình ảnh . Kiến trúc của nó được tối ưu hóa về tốc độ và độ chính xác, khiến nó phù hợp với các ứng dụng thời gian thực.

Dưới đây là một ví dụ ngắn gọn về cách tải mô hình đã được huấn luyện trước và classify một hình ảnh sử dụng ultralytics Python bưu kiện:

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Run inference on an image source
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

Đối với các nhóm muốn tối ưu hóa quy trình làm việc, Nền tảng Ultralytics đơn giản hóa toàn bộ quy trình. Nó cho phép người dùng quản lý tập dữ liệu phân loại , thực hiện huấn luyện dựa trên đám mây và triển khai mô hình ở nhiều định dạng khác nhau như ONNX hoặc TensorRT mà không cần cơ sở hạ tầng lập trình phức tạp.

Phân loại ảnh

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Cơ chế đằng sau sự phân loại

Phân loại so với các nhiệm vụ thị giác khác

Các Ứng dụng Thực tế

Chẩn đoán chăm sóc sức khỏe

Kiểm soát chất lượng trong sản xuất

Nông nghiệp thông minh

Triển khai phân loại với YOLO26

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng