Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Tìm hiểu về object detection (phát hiện đối tượng), tầm quan trọng của nó trong AI và cách các mô hình như YOLO11 đang chuyển đổi các ngành công nghiệp như xe tự lái, chăm sóc sức khỏe và an ninh.
Nhiều ngành công nghiệp đang nhanh chóng tích hợp các giải pháp trí tuệ nhân tạo (AI) vào hoạt động của họ. Trong số nhiều công nghệ AI hiện có, thị giác máy tính là một trong những công nghệ phổ biến nhất. Thị giác máy tính là một nhánh của AI giúp máy tính nhìn và hiểu nội dung của hình ảnh và video, giống như con người. Nó giúp máy móc có thể nhận dạng các đối tượng, xác định các mẫu và hiểu ý nghĩa của những gì chúng đang nhìn thấy.
Giá trị thị trường toàn cầu của thị giác máy tính ước tính sẽ tăng lên 175,72 tỷ đô la vào năm 2032. Thị giác máy tính bao gồm các tác vụ khác nhau cho phép các hệ thống Vision AI phân tích và diễn giải dữ liệu trực quan. Một trong những tác vụ được sử dụng rộng rãi và thiết yếu nhất của thị giác máy tính là phát hiện đối tượng.
Phát hiện đối tượng (Object detection) tập trung vào việc định vị và phân loại các đối tượng trong dữ liệu trực quan. Ví dụ: nếu bạn cho máy tính xem hình ảnh một con bò, nó có thể phát hiện con bò và vẽ một hộp giới hạn xung quanh nó. Khả năng này rất hữu ích trong các ứng dụng thực tế như giám sát động vật, xe tự lái và giám sát.
Vậy, làm thế nào để thực hiện phát hiện đối tượng? Một cách là thông qua các mô hình thị giác máy tính. Ví dụ: Ultralytics YOLO11 là một mô hình thị giác máy tính hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng.
Trong hướng dẫn này, chúng ta sẽ khám phá về object detection (phát hiện đối tượng) và cách nó hoạt động. Chúng ta cũng sẽ thảo luận về một số ứng dụng thực tế của object detection và Ultralytics YOLO11.
Hình 1. Sử dụng hỗ trợ của YOLO11 cho object detection để theo dõi gia súc.
Nhận diện đối tượng là gì?
Phát hiện đối tượng là một tác vụ thị giác máy tính, xác định và định vị các đối tượng trong hình ảnh hoặc video. Nó trả lời hai câu hỏi chính: 'Những đối tượng nào có trong hình ảnh?' và 'Chúng nằm ở đâu?'
Bạn có thể xem phát hiện đối tượng (object detection) như một quy trình bao gồm hai bước chính. Đầu tiên, phân loại đối tượng (object classification), cho phép hệ thống nhận dạng và gắn nhãn các đối tượng, chẳng hạn như xác định một con mèo, một chiếc xe hơi hoặc một người dựa trên các mẫu đã học. Thứ hai, định vị (localization), xác định vị trí của đối tượng bằng cách vẽ một khung giới hạn (bounding box) xung quanh nó, cho biết vị trí của nó trong hình ảnh. Cùng với nhau, các bước này cho phép máy móc phát hiện và hiểu các đối tượng trong một khung cảnh.
Khía cạnh làm cho object detection trở nên độc đáo là khả năng nhận dạng các đối tượng và xác định vị trí của chúng một cách chính xác. Các tác vụ thị giác máy tính khác tập trung vào các mục tiêu khác nhau.
Ví dụ: phân loại ảnh gán nhãn cho toàn bộ ảnh. Trong khi đó, phân đoạn ảnh cung cấp thông tin chi tiết ở cấp độ pixel về các thành phần khác nhau. Mặt khác, phát hiện đối tượng kết hợp giữa nhận dạng và định vị. Điều này đặc biệt hữu ích cho các tác vụ như đếm nhiều đối tượng trong thời gian thực.
Khi bạn khám phá các thuật ngữ thị giác máy tính khác nhau, bạn có thể cảm thấy như nhận dạng đối tượng và phát hiện đối tượng có thể hoán đổi cho nhau - nhưng chúng phục vụ các mục đích khác nhau. Một cách tuyệt vời để hiểu sự khác biệt là xem xét phát hiện khuôn mặt và nhận dạng khuôn mặt.
Nhận diện khuôn mặt là một loại của nhận diện đối tượng. Nó xác định sự hiện diện của một khuôn mặt trong ảnh và đánh dấu vị trí của nó bằng một khung giới hạn. Nó trả lời câu hỏi: “Khuôn mặt trong ảnh ở đâu?” Công nghệ này thường được sử dụng trong máy ảnh điện thoại thông minh để tự động lấy nét vào khuôn mặt hoặc trong camera an ninh để phát hiện khi có người xuất hiện.
Mặt khác, nhận diện khuôn mặt là một dạng của nhận dạng đối tượng. Nó không chỉ phát hiện khuôn mặt mà còn xác định đó là khuôn mặt của ai bằng cách phân tích các đặc điểm riêng và so sánh chúng với cơ sở dữ liệu. Nó trả lời câu hỏi: “Đây là ai?” Đây là công nghệ đằng sau việc mở khóa điện thoại bằng Face ID hoặc các hệ thống an ninh sân bay xác minh danh tính.
Nói một cách đơn giản, phát hiện đối tượng tìm và định vị các đối tượng, trong khi nhận dạng đối tượng phân loại và xác định chúng.
Hình 3. So sánh giữa phát hiện đối tượng và nhận dạng đối tượng. Ảnh của tác giả.
Nhiều mô hình phát hiện đối tượng, như YOLO11, được thiết kế để hỗ trợ phát hiện khuôn mặt nhưng không hỗ trợ nhận dạng khuôn mặt. YOLO11 có thể xác định hiệu quả sự hiện diện của khuôn mặt trong một hình ảnh và vẽ một hộp giới hạn xung quanh nó, làm cho nó hữu ích cho các ứng dụng như hệ thống giám sát, theo dõi đám đông và gắn thẻ ảnh tự động. Tuy nhiên, nó không thể xác định đó là khuôn mặt của ai. YOLO11 có thể được tích hợp với các mô hình được huấn luyện đặc biệt để nhận dạng khuôn mặt, chẳng hạn như Facenet hoặc DeepFace, để cho phép cả phát hiện và nhận dạng trong một hệ thống duy nhất.
Tìm hiểu cách hoạt động của object detection (phát hiện đối tượng)
Trước khi thảo luận về cách object detection hoạt động, trước tiên hãy xem xét kỹ hơn cách máy tính phân tích hình ảnh. Thay vì nhìn thấy một hình ảnh như chúng ta, máy tính chia nó thành một lưới các ô vuông nhỏ gọi là pixel. Mỗi pixel chứa thông tin về màu sắc và độ sáng mà máy tính có thể xử lý để diễn giải dữ liệu trực quan.
Để hiểu được các pixel này, các thuật toán sẽ nhóm chúng thành các vùng có ý nghĩa dựa trên hình dạng, màu sắc và khoảng cách giữa chúng. Các mô hình phát hiện đối tượng, như YOLO11, có thể nhận ra các mẫu hoặc đặc điểm trong các nhóm pixel này.
Ví dụ: một chiếc xe tự lái không nhìn thấy người đi bộ như cách chúng ta nhìn thấy - nó phát hiện các hình dạng và mẫu phù hợp với các đặc điểm của người đi bộ. Các mô hình này dựa trên quá trình đào tạo mở rộng với bộ dữ liệu hình ảnh được gắn nhãn, cho phép chúng tìm hiểu các đặc điểm riêng biệt của các đối tượng như ô tô, biển báo giao thông và người.
Một mô hình object detection điển hình có ba phần chính: backbone, neck và head. Backbone trích xuất các đặc trưng quan trọng từ một hình ảnh. Neck xử lý và tinh chỉnh các đặc trưng này, trong khi head chịu trách nhiệm dự đoán vị trí đối tượng và phân loại chúng.
Tinh chỉnh các phát hiện và trình bày kết quả
Sau khi các phát hiện ban đầu được thực hiện, các kỹ thuật hậu xử lý được áp dụng để cải thiện độ chính xác và lọc ra các dự đoán dư thừa. Ví dụ: các hộp giới hạn chồng chéo được loại bỏ, đảm bảo chỉ giữ lại các phát hiện phù hợp nhất. Ngoài ra, điểm tin cậy (các giá trị số biểu thị mức độ chắc chắn của mô hình rằng một đối tượng được phát hiện thuộc về một lớp nhất định) được gán cho mỗi đối tượng được phát hiện để cho biết độ chắc chắn của mô hình trong các dự đoán của nó.
Cuối cùng, kết quả được trình bày với các bounding box được vẽ xung quanh các đối tượng được phát hiện, cùng với nhãn lớp được dự đoán và điểm tin cậy của chúng. Những kết quả này sau đó có thể được sử dụng cho các ứng dụng thực tế.
Các mô hình object detection phổ biến
Ngày nay, có rất nhiều mô hình thị giác máy tính có sẵn và một số mô hình phổ biến nhất là các mô hình Ultralytics YOLO. Chúng được biết đến với tốc độ, độ chính xác và tính linh hoạt. Trong những năm qua, các mô hình này đã trở nên nhanh hơn, chính xác hơn và có khả năng xử lý nhiều tác vụ hơn. Việc phát hành Ultralytics YOLOv5 giúp việc triển khai dễ dàng hơn với các framework như PyTorch, cho phép nhiều người sử dụng AI thị giác nâng cao mà không cần kiến thức chuyên môn sâu.
Dựa trên nền tảng này, Ultralytics YOLOv8 đã giới thiệu các tính năng mới như phân đoạn thể hiện (instance segmentation), ước tính tư thế (pose estimation) và phân loại hình ảnh (image classification). Giờ đây, YOLO11 còn tiến xa hơn nữa với hiệu suất tốt hơn trên nhiều tác vụ. Với số lượng tham số ít hơn 22% so với YOLOv8m, YOLO11m đạt được độ chính xác trung bình (mAP) cao hơn trên bộ dữ liệu COCO. Nói một cách đơn giản, YOLO11 có thể nhận dạng các đối tượng với độ chính xác cao hơn trong khi sử dụng ít tài nguyên hơn, giúp nó nhanh hơn và đáng tin cậy hơn.
Cho dù bạn là một chuyên gia về AI hay chỉ mới bắt đầu, YOLO11 cung cấp một giải pháp mạnh mẽ nhưng thân thiện với người dùng cho các ứng dụng thị giác máy tính.
Huấn luyện tùy chỉnh mô hình để phát hiện đối tượng
Huấn luyện các mô hình Vision AI bao gồm việc giúp máy tính nhận dạng và hiểu hình ảnh và video. Tuy nhiên, quá trình huấn luyện có thể tốn nhiều thời gian. Thay vì bắt đầu từ đầu, học chuyển giao (transfer learning) giúp tăng tốc quá trình bằng cách sử dụng các mô hình đã được huấn luyện trước, vốn đã nhận ra các mẫu phổ biến.
Ví dụ: YOLO11 đã được huấn luyện trên tập dữ liệu COCO, chứa một tập hợp đa dạng các đồ vật hàng ngày. Mô hình được huấn luyện trước này có thể được huấn luyện tùy chỉnh thêm để phát hiện các đồ vật cụ thể có thể không có trong tập dữ liệu gốc.
Để huấn luyện tùy chỉnh YOLO11, bạn cần một bộ dữ liệu được gắn nhãn chứa hình ảnh của các đối tượng bạn muốn phát hiện. Ví dụ: nếu bạn muốn xây dựng một mô hình để xác định các loại trái cây khác nhau trong một cửa hàng tạp hóa, bạn sẽ tạo một bộ dữ liệu với các hình ảnh được gắn nhãn của táo, chuối, cam, v.v. Sau khi bộ dữ liệu được chuẩn bị, YOLO11 có thể được huấn luyện, điều chỉnh các tham số như kích thước lô (batch size), tốc độ học (learning rate) và số lượng epochs để tối ưu hóa hiệu suất.
Với phương pháp này, các doanh nghiệp có thể huấn luyện YOLO11 để phát hiện bất cứ thứ gì, từ các bộ phận bị lỗi trong sản xuất đến các loài động vật hoang dã trong các dự án bảo tồn, điều chỉnh mô hình cho phù hợp với nhu cầu chính xác của họ.
Ứng dụng của phát hiện đối tượng
Tiếp theo, hãy xem xét một số trường hợp sử dụng thực tế của phát hiện đối tượng và cách nó đang chuyển đổi các ngành công nghiệp khác nhau.
Phát hiện nguy hiểm cho xe tự hành
Xe tự lái (Self-driving cars) sử dụng các tác vụ thị giác máy tính như nhận diện đối tượng để di chuyển an toàn và tránh chướng ngại vật. Công nghệ này giúp chúng nhận ra người đi bộ, các phương tiện khác, ổ gà và các nguy cơ trên đường, giúp chúng hiểu rõ hơn về môi trường xung quanh. Chúng có thể đưa ra quyết định nhanh chóng và di chuyển an toàn trong giao thông bằng cách liên tục phân tích môi trường của chúng.
Hình 4. Một ví dụ về sử dụng object detection để phát hiện ổ gà bằng YOLO11.
Phân tích hình ảnh y tế trong chăm sóc sức khỏe
Chẩn đoán hình ảnh y tế như chụp X-quang, MRI, CT và siêu âm tạo ra hình ảnh rất chi tiết về cơ thể người để giúp chẩn đoán và điều trị bệnh. Các ảnh chụp này tạo ra một lượng lớn dữ liệu mà các bác sĩ, chẳng hạn như bác sĩ радиолог và bác sĩ bệnh lý, phải phân tích cẩn thận để phát hiện bệnh. Tuy nhiên, việc xem xét chi tiết mọi hình ảnh có thể tốn thời gian và các chuyên gia có thể đôi khi bỏ lỡ các chi tiết do mệt mỏi hoặc hạn chế về thời gian.
Các mô hình phát hiện đối tượng như YOLO11 có thể hỗ trợ bằng cách tự động xác định các đặc điểm chính trong ảnh chụp y tế, chẳng hạn như các cơ quan, khối u hoặc bất thường, với độ chính xác cao. Các mô hình được đào tạo tùy chỉnh có thể làm nổi bật các khu vực đáng lo ngại bằng các khung giới hạn, giúp bác sĩ tập trung vào các vấn đề tiềm ẩn nhanh hơn. Điều này làm giảm khối lượng công việc, cải thiện hiệu quả và cung cấp thông tin chi tiết nhanh chóng.
Tăng cường bảo mật bằng cách phát hiện người và dị thường
Theo dõi đối tượng (Object tracking) là một nhiệm vụ thị giác máy tính được hỗ trợ bởi YOLO11, cho phép giám sát thời gian thực và tăng cường bảo mật. Nó xây dựng dựa trên nhận diện đối tượng bằng cách xác định các đối tượng và liên tục theo dõi chuyển động của chúng trên các khung hình. Công nghệ này được sử dụng rộng rãi trong các hệ thống giám sát để cải thiện sự an toàn trong các môi trường khác nhau.
Ví dụ: trong trường học và trung tâm giữ trẻ, theo dõi đối tượng có thể giúp giám sát trẻ em và ngăn chúng đi lạc. Trong các ứng dụng bảo mật, nó đóng một vai trò quan trọng trong việc phát hiện những kẻ xâm nhập vào các khu vực hạn chế, giám sát đám đông để tránh tình trạng quá tải hoặc hành vi đáng ngờ và gửi cảnh báo theo thời gian thực khi phát hiện hoạt động trái phép. Bằng cách theo dõi các đối tượng khi chúng di chuyển, các hệ thống theo dõi được hỗ trợ bởi YOLO11 tăng cường bảo mật, tự động hóa giám sát và cho phép phản ứng nhanh hơn với các mối đe dọa tiềm ẩn.
Ưu và nhược điểm của phát hiện đối tượng
Dưới đây là một số lợi ích chính mà object detection (phát hiện đối tượng) có thể mang lại cho các ngành công nghiệp khác nhau:
Tự động hóa: Phát hiện đối tượng có thể giúp giảm nhu cầu giám sát của con người trong các tác vụ như giám sát cảnh quay CCTV.
Hoạt động với các mô hình AI khác: Nó có thể được tích hợp với hệ thống nhận dạng khuôn mặt, nhận dạng hành động và theo dõi để cải thiện độ chính xác và chức năng.
Xử lý theo thời gian thực: Nhiều mô hình phát hiện đối tượng, như YOLO11, rất nhanh và hiệu quả, khiến chúng trở nên lý tưởng cho các ứng dụng thời gian thực đòi hỏi kết quả tức thì.
Mặc dù những lợi ích này làm nổi bật cách phát hiện đối tượng tác động đến các trường hợp sử dụng khác nhau, điều quan trọng nữa là phải xem xét những thách thức liên quan đến việc triển khai nó. Dưới đây là một số thách thức chính:
Quyền riêng tư dữ liệu: Việc sử dụng dữ liệu trực quan, đặc biệt ở các khu vực nhạy cảm như giám sát hoặc chăm sóc sức khỏe, có thể làm dấy lên các vấn đề về quyền riêng tư và lo ngại về bảo mật.
Che khuất: Che khuất trong phát hiện đối tượng xảy ra khi các đối tượng bị chặn một phần hoặc bị che khuất khỏi tầm nhìn, gây khó khăn cho mô hình trong việc phát hiện và phân loại chúng một cách chính xác.
Tốn kém về mặt tính toán: Các mô hình hiệu suất cao thường yêu cầu GPU (Bộ xử lý đồ họa) mạnh mẽ để xử lý, khiến việc triển khai thời gian thực trở nên tốn kém.
Những điều cần nhớ
Phát hiện đối tượng là một công cụ đột phá trong thị giác máy tính, giúp máy móc phát hiện và định vị các đối tượng trong hình ảnh và video. Nó đang được sử dụng trong các lĩnh vực từ xe tự lái đến chăm sóc sức khỏe, giúp các tác vụ trở nên dễ dàng hơn, an toàn hơn và hiệu quả hơn. Với các mô hình mới hơn như YOLO11, các doanh nghiệp có thể dễ dàng tạo các mô hình phát hiện đối tượng tùy chỉnh để tạo các ứng dụng thị giác máy tính chuyên dụng.
Mặc dù có một số thách thức, như lo ngại về quyền riêng tư và các đối tượng bị che khuất khỏi tầm nhìn, phát hiện đối tượng là một công nghệ đáng tin cậy. Khả năng tự động hóa các tác vụ, xử lý dữ liệu trực quan trong thời gian thực và tích hợp với các công cụ Vision AI khác khiến nó trở thành một phần thiết yếu của các đổi mới tiên tiến.