Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Tìm hiểu về phát hiện đối tượng, tầm quan trọng của nó trong AI và cách các mô hình như YOLO11 đang chuyển đổi các ngành công nghiệp như xe tự lái, chăm sóc sức khỏe và an ninh.
Nhiều ngành công nghiệp đang nhanh chóng tích hợp các giải pháp trí tuệ nhân tạo (AI) vào hoạt động của họ. Trong số nhiều công nghệ AI hiện có, thị giác máy tính là một trong những công nghệ phổ biến nhất. Thị giác máy tính là một nhánh của AI giúp máy tính nhìn và hiểu nội dung của hình ảnh và video, giống như con người. Nó giúp máy móc có thể nhận dạng các đối tượng, xác định các mẫu và hiểu ý nghĩa của những gì chúng đang nhìn thấy.
Giá trị thị trường toàn cầu của thị giác máy tính ước tính sẽ tăng lên 175,72 tỷ đô la vào năm 2032. Thị giác máy tính bao gồm các tác vụ khác nhau cho phép các hệ thống Vision AI phân tích và diễn giải dữ liệu trực quan. Một trong những tác vụ được sử dụng rộng rãi và thiết yếu nhất của thị giác máy tính là phát hiện đối tượng.
Phát hiện đối tượng tập trung vào việc định vị và phân loại các đối tượng trong dữ liệu trực quan. Ví dụ, nếu bạn cho máy tính xem hình ảnh một con bò, nó có thể detect Con bò và vẽ một khung giới hạn xung quanh nó. Khả năng này hữu ích trong các ứng dụng thực tế như giám sát động vật, xe tự lái và giám sát.
Vậy, phát hiện đối tượng có thể được thực hiện như thế nào? Một cách là thông qua các mô hình thị giác máy tính. Ví dụ, Ultralytics YOLO11 là một mô hình thị giác máy tính hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng.
Trong hướng dẫn này, chúng ta sẽ tìm hiểu về phát hiện đối tượng và cách thức hoạt động của nó. Chúng ta cũng sẽ thảo luận về một số ứng dụng thực tế của phát hiện đối tượng và Ultralytics YOLO11 .
Hình 1. Sử dụng YOLO11 hỗ trợ phát hiện vật thể để theo dõi gia súc.
Nhận diện đối tượng là gì?
Phát hiện đối tượng là một tác vụ thị giác máy tính, xác định và định vị các đối tượng trong hình ảnh hoặc video. Nó trả lời hai câu hỏi chính: 'Những đối tượng nào có trong hình ảnh?' và 'Chúng nằm ở đâu?'
Bạn có thể hình dung phát hiện vật thể là một quá trình bao gồm hai bước chính. Bước đầu tiên, phân loại vật thể, cho phép hệ thống nhận dạng và dán nhãn vật thể, chẳng hạn như xác định một con mèo, một chiếc xe hơi hoặc một người dựa trên các mẫu đã học. Bước thứ hai, định vị, xác định vị trí của vật thể bằng cách vẽ một khung giới hạn xung quanh nó, cho biết vị trí của nó trong hình ảnh. Kết hợp lại, các bước này cho phép máy móc detect và hiểu các đối tượng trong một cảnh.
Khía cạnh làm cho object detection trở nên độc đáo là khả năng nhận dạng các đối tượng và xác định vị trí của chúng một cách chính xác. Các tác vụ thị giác máy tính khác tập trung vào các mục tiêu khác nhau.
Ví dụ: phân loại ảnh gán nhãn cho toàn bộ ảnh. Trong khi đó, phân đoạn ảnh cung cấp thông tin chi tiết ở cấp độ pixel về các thành phần khác nhau. Mặt khác, phát hiện đối tượng kết hợp giữa nhận dạng và định vị. Điều này đặc biệt hữu ích cho các tác vụ như đếm nhiều đối tượng trong thời gian thực.
Khi bạn khám phá các thuật ngữ thị giác máy tính khác nhau, bạn có thể cảm thấy như nhận dạng đối tượng và phát hiện đối tượng có thể hoán đổi cho nhau - nhưng chúng phục vụ các mục đích khác nhau. Một cách tuyệt vời để hiểu sự khác biệt là xem xét phát hiện khuôn mặt và nhận dạng khuôn mặt.
Phát hiện khuôn mặt là một loại phát hiện đối tượng. Nó xác định sự hiện diện của một khuôn mặt trong ảnh và đánh dấu vị trí của nó bằng một khung giới hạn. Nó trả lời câu hỏi "Khuôn mặt ở đâu trong ảnh?". Công nghệ này thường được sử dụng trong camera điện thoại thông minh tự động lấy nét khuôn mặt hoặc trong camera an ninh. detect khi có người hiện diện.
Mặt khác, nhận dạng khuôn mặt là một hình thức nhận dạng đối tượng. Nó không chỉ detect khuôn mặt; nó xác định khuôn mặt đó là của ai bằng cách phân tích các đặc điểm riêng biệt và so sánh chúng với cơ sở dữ liệu. Nó trả lời câu hỏi: "Người này là ai?". Đây là công nghệ dùng để mở khóa điện thoại bằng Face ID hoặc hệ thống an ninh sân bay giúp xác minh danh tính.
Nói một cách đơn giản, phát hiện đối tượng tìm và định vị các đối tượng, trong khi nhận dạng đối tượng phân loại và xác định chúng.
Hình 3. So sánh giữa phát hiện đối tượng và nhận dạng đối tượng. Ảnh của tác giả.
Nhiều mô hình phát hiện đối tượng, như YOLO11 , được thiết kế để hỗ trợ phát hiện khuôn mặt nhưng không hỗ trợ nhận dạng khuôn mặt. YOLO11 có thể nhận diện hiệu quả sự hiện diện của khuôn mặt trong ảnh và vẽ một khung bao quanh khuôn mặt đó, rất hữu ích cho các ứng dụng như hệ thống giám sát, theo dõi đám đông và gắn thẻ ảnh tự động. Tuy nhiên, nó không thể xác định khuôn mặt đó là của ai. YOLO11 có thể được tích hợp với các mô hình được đào tạo chuyên biệt để nhận dạng khuôn mặt, chẳng hạn như Facenet hoặc DeepFace, để cho phép phát hiện và nhận dạng trong một hệ thống duy nhất.
Tìm hiểu cách hoạt động của object detection (phát hiện đối tượng)
Trước khi thảo luận về cách object detection hoạt động, trước tiên hãy xem xét kỹ hơn cách máy tính phân tích hình ảnh. Thay vì nhìn thấy một hình ảnh như chúng ta, máy tính chia nó thành một lưới các ô vuông nhỏ gọi là pixel. Mỗi pixel chứa thông tin về màu sắc và độ sáng mà máy tính có thể xử lý để diễn giải dữ liệu trực quan.
Để hiểu được các pixel này, các thuật toán nhóm chúng thành các vùng có ý nghĩa dựa trên hình dạng, màu sắc và mức độ gần nhau của chúng. Các mô hình phát hiện đối tượng, như YOLO11 , có thể nhận ra các mẫu hoặc đặc điểm trong các nhóm điểm ảnh này.
Ví dụ: một chiếc xe tự lái không nhìn thấy người đi bộ như cách chúng ta nhìn thấy - nó phát hiện các hình dạng và mẫu phù hợp với các đặc điểm của người đi bộ. Các mô hình này dựa trên quá trình đào tạo mở rộng với bộ dữ liệu hình ảnh được gắn nhãn, cho phép chúng tìm hiểu các đặc điểm riêng biệt của các đối tượng như ô tô, biển báo giao thông và người.
Một mô hình object detection điển hình có ba phần chính: backbone, neck và head. Backbone trích xuất các đặc trưng quan trọng từ một hình ảnh. Neck xử lý và tinh chỉnh các đặc trưng này, trong khi head chịu trách nhiệm dự đoán vị trí đối tượng và phân loại chúng.
Tinh chỉnh các phát hiện và trình bày kết quả
Sau khi các phát hiện ban đầu được thực hiện, các kỹ thuật hậu xử lý được áp dụng để cải thiện độ chính xác và lọc ra các dự đoán dư thừa. Ví dụ: các hộp giới hạn chồng chéo được loại bỏ, đảm bảo chỉ giữ lại các phát hiện phù hợp nhất. Ngoài ra, điểm tin cậy (các giá trị số biểu thị mức độ chắc chắn của mô hình rằng một đối tượng được phát hiện thuộc về một lớp nhất định) được gán cho mỗi đối tượng được phát hiện để cho biết độ chắc chắn của mô hình trong các dự đoán của nó.
Cuối cùng, kết quả được trình bày với các bounding box được vẽ xung quanh các đối tượng được phát hiện, cùng với nhãn lớp được dự đoán và điểm tin cậy của chúng. Những kết quả này sau đó có thể được sử dụng cho các ứng dụng thực tế.
Các mô hình object detection phổ biến
Ngày nay, có rất nhiều mô hình thị giác máy tính, và một số trong những mô hình phổ biến nhất là mô hình Ultralytics YOLO . Chúng được biết đến với tốc độ, độ chính xác và tính linh hoạt. Qua nhiều năm, các mô hình này đã trở nên nhanh hơn, chính xác hơn và có khả năng xử lý nhiều tác vụ hơn. Việc phát hành Ultralytics YOLOv5 đã giúp việc triển khai dễ dàng hơn với các nền tảng như PyTorch cho phép nhiều người sử dụng Vision AI tiên tiến hơn mà không cần chuyên môn kỹ thuật sâu.
Dựa trên nền tảng này, Ultralytics YOLOv8 đã giới thiệu các tính năng mới như phân đoạn thực thể, ước tính tư thế và phân loại hình ảnh. Giờ đây, YOLO11 đang đưa mọi thứ tiến xa hơn nữa với hiệu suất tốt hơn trên nhiều tác vụ. Với số lượng tham số ít hơn 22% so với YOLOv8m , YOLO11m đạt được độ chính xác trung bình cao hơn ( mAP ) trên COCO tập dữ liệu. Nói một cách đơn giản, YOLO11 có thể nhận dạng các đối tượng với độ chính xác cao hơn trong khi sử dụng ít tài nguyên hơn, giúp quá trình này nhanh hơn và đáng tin cậy hơn.
Cho dù bạn là chuyên gia AI hay chỉ mới bắt đầu, YOLO11 cung cấp giải pháp mạnh mẽ nhưng thân thiện với người dùng cho các ứng dụng thị giác máy tính.
Huấn luyện tùy chỉnh mô hình để phát hiện đối tượng
Huấn luyện các mô hình Vision AI bao gồm việc giúp máy tính nhận dạng và hiểu hình ảnh và video. Tuy nhiên, quá trình huấn luyện có thể tốn nhiều thời gian. Thay vì bắt đầu từ đầu, học chuyển giao (transfer learning) giúp tăng tốc quá trình bằng cách sử dụng các mô hình đã được huấn luyện trước, vốn đã nhận ra các mẫu phổ biến.
Ví dụ, YOLO11 đã được đào tạo trên tập dữ liệu COCO , chứa một tập hợp đa dạng các vật thể hàng ngày. Mô hình được đào tạo trước này có thể được đào tạo tùy chỉnh thêm để detect các đối tượng cụ thể có thể không có trong tập dữ liệu gốc.
Để đào tạo tùy chỉnh YOLO11 , bạn cần một tập dữ liệu được gắn nhãn có chứa hình ảnh của các đối tượng bạn muốn detect . Ví dụ, nếu bạn muốn xây dựng một mô hình để xác định các loại trái cây khác nhau trong một cửa hàng tạp hóa, bạn sẽ tạo một tập dữ liệu với các hình ảnh được gắn nhãn của táo, chuối, cam, v.v. Sau khi tập dữ liệu được chuẩn bị, YOLO11 có thể được đào tạo, điều chỉnh các thông số như kích thước lô, tốc độ học và kỷ nguyên để tối ưu hóa hiệu suất.
Với cách tiếp cận này, các doanh nghiệp có thể đào tạo YOLO11 ĐẾN detect bất cứ thứ gì, từ các bộ phận bị lỗi trong quá trình sản xuất đến các loài động vật hoang dã trong các dự án bảo tồn, điều chỉnh mô hình theo đúng nhu cầu của chúng.
Ứng dụng của phát hiện đối tượng
Tiếp theo, hãy xem xét một số trường hợp sử dụng thực tế của phát hiện đối tượng và cách nó đang chuyển đổi các ngành công nghiệp khác nhau.
Phát hiện nguy hiểm cho xe tự hành
Xe tự lái (Self-driving cars) sử dụng các tác vụ thị giác máy tính như nhận diện đối tượng để di chuyển an toàn và tránh chướng ngại vật. Công nghệ này giúp chúng nhận ra người đi bộ, các phương tiện khác, ổ gà và các nguy cơ trên đường, giúp chúng hiểu rõ hơn về môi trường xung quanh. Chúng có thể đưa ra quyết định nhanh chóng và di chuyển an toàn trong giao thông bằng cách liên tục phân tích môi trường của chúng.
Hình 4. Một ví dụ về việc sử dụng phát hiện đối tượng để detect ổ gà với YOLO11 .
Phân tích hình ảnh y tế trong chăm sóc sức khỏe
Các kỹ thuật hình ảnh y tế như chụp X-quang, chụp cộng hưởng từ (MRI), chụp CT và siêu âm tạo ra hình ảnh chi tiết cao về cơ thể con người để hỗ trợ chẩn đoán và điều trị bệnh. Những hình ảnh này tạo ra một lượng lớn dữ liệu mà các bác sĩ, chẳng hạn như bác sĩ X-quang và bác sĩ giải phẫu bệnh, phải phân tích cẩn thận để đưa ra kết luận chính xác. detect bệnh tật. Tuy nhiên, việc xem xét chi tiết từng hình ảnh có thể tốn thời gian và đôi khi các chuyên gia có thể bỏ sót chi tiết do mệt mỏi hoặc hạn chế về thời gian.
Các mô hình phát hiện đối tượng như YOLO11 có thể hỗ trợ bằng cách tự động xác định các đặc điểm chính trong ảnh chụp quét y tế, chẳng hạn như các cơ quan, khối u hoặc bất thường, với độ chính xác cao. Các mô hình được đào tạo riêng có thể làm nổi bật các khu vực quan tâm bằng hộp giới hạn, giúp bác sĩ tập trung vào các vấn đề tiềm ẩn nhanh hơn. Điều này giúp giảm khối lượng công việc, cải thiện hiệu quả và cung cấp thông tin chi tiết nhanh chóng.
Hình 5. Phân tích hình ảnh y tế bằng cách sử dụng YOLO11 .
Tăng cường bảo mật bằng cách phát hiện người và dị thường
Theo dõi đối tượng là một nhiệm vụ thị giác máy tính được hỗ trợ bởi YOLO11 , cho phép giám sát theo thời gian thực và tăng cường bảo mật. Công nghệ này dựa trên khả năng phát hiện vật thể bằng cách nhận dạng và liên tục theo dõi chuyển động của chúng trên các khung hình. Công nghệ này được sử dụng rộng rãi trong các hệ thống giám sát để cải thiện an toàn trong nhiều môi trường khác nhau.
Ví dụ, tại trường học và nhà trẻ, tính năng theo dõi đối tượng có thể giúp giám sát trẻ em và ngăn chặn chúng đi lạc. Trong các ứng dụng an ninh, nó đóng vai trò quan trọng trong việc phát hiện kẻ xâm nhập vào khu vực cấm, giám sát đám đông để phát hiện tình trạng quá tải hoặc hành vi đáng ngờ, và gửi cảnh báo theo thời gian thực khi phát hiện hoạt động trái phép. track của các vật thể khi chúng di chuyển, YOLO11 -hệ thống theo dõi được hỗ trợ tăng cường bảo mật, tự động giám sát và cho phép phản ứng nhanh hơn với các mối đe dọa tiềm ẩn.
Ưu và nhược điểm của phát hiện đối tượng
Dưới đây là một số lợi ích chính mà object detection (phát hiện đối tượng) có thể mang lại cho các ngành công nghiệp khác nhau:
Tự động hóa: Phát hiện đối tượng có thể giúp giảm nhu cầu giám sát của con người trong các tác vụ như giám sát cảnh quay CCTV.
Hoạt động với các mô hình AI khác: Nó có thể được tích hợp với hệ thống nhận dạng khuôn mặt, nhận dạng hành động và theo dõi để cải thiện độ chính xác và chức năng.
Xử lý thời gian thực: Nhiều mô hình phát hiện đối tượng, như YOLO11 , nhanh chóng và hiệu quả, khiến chúng trở nên lý tưởng cho các ứng dụng thời gian thực đòi hỏi kết quả tức thì.
Mặc dù những lợi ích này làm nổi bật cách phát hiện đối tượng tác động đến các trường hợp sử dụng khác nhau, điều quan trọng nữa là phải xem xét những thách thức liên quan đến việc triển khai nó. Dưới đây là một số thách thức chính:
Quyền riêng tư dữ liệu: Việc sử dụng dữ liệu trực quan, đặc biệt ở các khu vực nhạy cảm như giám sát hoặc chăm sóc sức khỏe, có thể làm dấy lên các vấn đề về quyền riêng tư và lo ngại về bảo mật.
Sự che khuất: Sự che khuất trong phát hiện đối tượng xảy ra khi các đối tượng bị chặn một phần hoặc bị ẩn khỏi tầm nhìn, khiến mô hình khó có thể phát hiện chính xác detect Và classify họ.
Tốn kém về mặt tính toán: Các mô hình hiệu suất cao thường yêu cầu GPU (Bộ xử lý đồ họa) mạnh mẽ để xử lý, khiến việc triển khai thời gian thực trở nên tốn kém.
Những điều cần nhớ
Phát hiện đối tượng là một công cụ thay đổi cuộc chơi trong thị giác máy tính giúp máy móc detect và định vị các đối tượng trong hình ảnh và video. Công nghệ này đang được sử dụng trong nhiều lĩnh vực, từ xe tự lái đến chăm sóc sức khỏe, giúp các tác vụ trở nên dễ dàng hơn, an toàn hơn và hiệu quả hơn. Với các mô hình mới hơn như YOLO11 , các doanh nghiệp có thể dễ dàng tạo các mô hình phát hiện đối tượng tùy chỉnh để tạo ra các ứng dụng thị giác máy tính chuyên biệt.
Mặc dù có một số thách thức, như lo ngại về quyền riêng tư và các đối tượng bị che khuất khỏi tầm nhìn, phát hiện đối tượng là một công nghệ đáng tin cậy. Khả năng tự động hóa các tác vụ, xử lý dữ liệu trực quan trong thời gian thực và tích hợp với các công cụ Vision AI khác khiến nó trở thành một phần thiết yếu của các đổi mới tiên tiến.