Phát hiện đối tượng với YOLO11 : Ultralytics Hướng dẫn

Thị giác máy tính (Computer vision) là một lĩnh vực của trí tuệ nhân tạo (AI) giúp máy móc diễn giải và hiểu thông tin trực quan để thực hiện các tác vụ thiết yếu như nhận diện đối tượng (object detection). Không giống như phân loại ảnh (image classification), nhận diện đối tượng không chỉ xác định những đối tượng nào có trong ảnh mà còn xác định chính xác vị trí của chúng. Điều này làm cho nó trở thành một công cụ quan trọng cho các ứng dụng Vision AI như xe tự lái, hệ thống an ninh thời gian thực và tự động hóa kho bãi.

Theo thời gian, công nghệ phát hiện vật thể đã trở nên tiên tiến hơn và dễ sử dụng hơn. Một bước tiến lớn đã được công bố tại Ultralytics 'sự kiện kết hợp thường niên, YOLO Vision 2024 (YV24) , với sự ra mắt của mẫu Ultralytics YOLO11 . YOLO11 cải thiện độ chính xác và hiệu suất trong khi vẫn hỗ trợ các tác vụ tương tự như YOLOv8 , giúp người dùng các mẫu trước đó dễ dàng chuyển đổi liền mạch.

Hình 1. Một ví dụ về việc sử dụng Ultralytics YOLO11 mô hình phát hiện đối tượng.

‍

Trong bài viết này, chúng tôi sẽ phân tích phát hiện đối tượng là gì, sự khác biệt của nó so với các tác vụ thị giác máy tính khác và khám phá các ứng dụng thực tế của nó. Chúng tôi cũng sẽ hướng dẫn bạn cách sử dụng YOLO11 mô hình với gói Ultralytics Python và nền tảng Ultralytics HUB . Hãy bắt đầu thôi!

Phát hiện đối tượng là gì?

Phát hiện đối tượng (Object detection) là một nhiệm vụ cốt lõi trong thị giác máy tính, không chỉ xác định các đối tượng trong một hình ảnh. Không giống như phân loại hình ảnh, chỉ xác định xem một đối tượng cụ thể có xuất hiện hay không, phát hiện đối tượng nhận dạng nhiều đối tượng và xác định chính xác vị trí của chúng bằng cách sử dụng các hộp giới hạn.

Ví dụ: nó có thể xác định và định vị khuôn mặt trong ảnh nhóm, ô tô trên một con phố đông đúc hoặc sản phẩm trên kệ hàng trong cửa hàng. Việc kết hợp nhận dạng đối tượng và định vị làm cho nó đặc biệt hữu ích cho các ứng dụng như giám sát, theo dõi đám đông và quản lý hàng tồn kho tự động.

Hình 2. Sử dụng YOLO11 ĐẾN detect khuôn mặt.

‍

Điểm khác biệt của nhận diện đối tượng so với các tác vụ khác như phân vùng ngữ nghĩa (semantic segmentation) hoặc phân vùng thể hiện (instance segmentation) là sự tập trung và hiệu quả của nó.

Phân vùng ngữ nghĩa (Semantic segmentation) gán nhãn cho mọi pixel trong một hình ảnh nhưng không phân biệt giữa các đối tượng riêng lẻ cùng loại (ví dụ: tất cả các khuôn mặt trong một bức ảnh sẽ được nhóm là "khuôn mặt"). Phân vùng thực thể (Instance segmentation) tiến xa hơn bằng cách tách từng đối tượng và phác thảo hình dạng chính xác của nó, ngay cả đối với các đối tượng cùng loại.

Tuy nhiên, phát hiện đối tượng cung cấp một cách tiếp cận hợp lý hơn bằng cách xác định và phân loại các đối tượng đồng thời đánh dấu vị trí của chúng. Điều này làm cho nó trở nên lý tưởng cho các tác vụ thời gian thực như phát hiện khuôn mặt trong cảnh quay an ninh hoặc xác định chướng ngại vật cho xe tự hành.

Ứng dụng của YOLO11 và phát hiện đối tượng

YOLO11 Các tính năng phát hiện đối tượng tiên tiến của nó giúp nó hữu ích trong nhiều ngành công nghiệp. Hãy cùng xem xét một số ví dụ.

Sử dụng YOLO11 để phân tích bán lẻ

YOLO11 và phát hiện đối tượng đang định hình lại phân tích bán lẻ bằng cách giúp quản lý hàng tồn kho và giám sát kệ hàng hiệu quả và chính xác hơn. Khả năng của mô hình này là nhanh chóng và đáng tin cậy detect các đối tượng giúp các nhà bán lẻ track mức tồn kho, sắp xếp kệ hàng và giảm thiểu sai sót trong việc kiểm kê hàng tồn kho.

Ví dụ, YOLO11 có thể detect Những mặt hàng cụ thể như kính râm trên kệ hàng. Nhưng tại sao nhà bán lẻ lại muốn theo dõi kệ hàng? Việc giữ cho kệ hàng luôn đầy ắp và ngăn nắp là rất quan trọng để đảm bảo khách hàng có thể tìm thấy những gì họ cần, điều này ảnh hưởng trực tiếp đến doanh số. Bằng cách theo dõi kệ hàng theo thời gian thực, nhà bán lẻ có thể nhanh chóng phát hiện khi hàng hóa sắp hết, thất lạc hoặc quá tải, giúp họ duy trì cách trưng bày gọn gàng và hấp dẫn, cải thiện trải nghiệm mua sắm.

Hình 3. Một ví dụ về việc sử dụng YOLO11 ĐẾN detect sản phẩm trên kệ.

‍

YOLO11 trong các ứng dụng thành phố thông minh

Một thành phố nhộn nhịp phụ thuộc vào luồng giao thông thông suốt và đường phố an toàn để hoạt động hiệu quả, và YOLO11 có thể giúp thực hiện điều này. Trên thực tế, nhiều ứng dụng thành phố thông minh có thể được tích hợp với YOLO11 .

Một trường hợp thú vị liên quan đến việc sử dụng công nghệ phát hiện vật thể để nhận dạng biển số xe trên các phương tiện đang di chuyển. Bằng cách đó, YOLO11 có thể hỗ trợ thu phí nhanh hơn, quản lý giao thông tốt hơn và thực thi quy định nhanh hơn.

Hình 4. Sử dụng phát hiện đối tượng và YOLO11 ĐẾN detect biển số xe.

‍

Thông tin chi tiết từ hệ thống Vision AI giám sát đường sá có thể cảnh báo chính quyền về các vi phạm giao thông hoặc tình trạng tắc nghẽn trước khi chúng trở thành vấn đề lớn hơn. YOLO11 cũng có thể detect người đi bộ và người đi xe đạp, giúp đường phố an toàn hơn và hiệu quả hơn cho mọi người.

Thực tế là, YOLO11 Khả năng xử lý dữ liệu hình ảnh của .AI biến nó thành một công cụ mạnh mẽ để cải thiện cơ sở hạ tầng thành phố. Ví dụ, nó có thể giúp tối ưu hóa thời gian đèn giao thông bằng cách phân tích chuyển động của xe cộ và người đi bộ. Nó cũng có thể tăng cường an toàn trong khu vực trường học bằng cách phát hiện trẻ em và cảnh báo người lái xe giảm tốc độ. YOLO11 , các thành phố có thể thực hiện các biện pháp chủ động để giải quyết các thách thức và tạo ra một môi trường hiệu quả hơn cho mọi người.

Phát hiện video thời gian thực với YOLO11 : Tăng khả năng tiếp cận

Phát hiện đối tượng theo thời gian thực đề cập đến khả năng của một hệ thống để xác định và classify các đối tượng trong nguồn cấp dữ liệu video trực tiếp khi chúng xuất hiện. YOLO11 được thiết kế để đạt hiệu suất thời gian thực vượt trội và hỗ trợ xuất sắc khả năng này. Các ứng dụng của nó không chỉ đơn thuần là hợp lý hóa quy trình - mà còn có thể giúp tạo ra một thế giới toàn diện và dễ tiếp cận hơn.

Ví dụ, YOLO11 có thể hỗ trợ người khiếm thị bằng cách nhận dạng các vật thể theo thời gian thực. Dựa trên các phát hiện, mô tả bằng âm thanh có thể được cung cấp, giúp người dùng định hướng môi trường xung quanh một cách độc lập hơn.

Hãy tưởng tượng một người khiếm thị đang đi mua sắm. Việc chọn đúng món đồ có thể khá khó khăn, nhưng YOLO11 có thể hỗ trợ. Khi họ đặt các mặt hàng vào giỏ hàng của mình, một hệ thống được tích hợp với YOLO11 có thể được sử dụng để nhận dạng từng món đồ - chẳng hạn như chuối, bơ, hoặc một hộp sữa - và cung cấp mô tả âm thanh theo thời gian thực. Điều này cho phép trẻ xác nhận lựa chọn của mình và đảm bảo trẻ có mọi thứ cần thiết. Bằng cách nhận dạng các vật dụng hàng ngày, YOLO11 có thể giúp việc mua sắm trở nên đơn giản hơn.

Hình 5. Nhận diện đối tượng có thể giúp thế giới trở nên dễ tiếp cận hơn đối với người khiếm thị.

‍

Hướng dẫn từng bước để phát hiện đối tượng với YOLO11

Bây giờ chúng ta đã tìm hiểu những điều cơ bản về phát hiện đối tượng và các ứng dụng đa dạng của nó, hãy cùng tìm hiểu cách bạn có thể bắt đầu với Ultralytics YOLO11 mô hình cho các nhiệm vụ như phát hiện đối tượng.

Có hai cách đơn giản để sử dụng YOLO11 : thông qua Ultralytics Python gói hoặc Ultralytics HUB. Hãy cùng khám phá cả hai phương pháp, bắt đầu với Python bưu kiện.

Chạy suy luận bằng cách sử dụng YOLO11

Suy luận là khi một mô hình AI phân tích dữ liệu mới, chưa từng thấy để đưa ra dự đoán , classify thông tin hoặc cung cấp thông tin chi tiết dựa trên những gì nó đã học được trong quá trình đào tạo. Về phát hiện đối tượng, điều đó có nghĩa là xác định và định vị các đối tượng cụ thể trong hình ảnh hoặc video, vẽ các khung giới hạn xung quanh chúng và gắn nhãn cho chúng dựa trên quá trình đào tạo của mô hình.

Để suy ra bằng cách sử dụng YOLO11 Để phát hiện đối tượng, trước tiên bạn cần cài đặt gói Ultralytics Python qua pip, conda hoặc Docker. Nếu gặp bất kỳ sự cố cài đặt nào, hãy xem hướng dẫn khắc phục sự cố để biết các mẹo và thủ thuật giúp bạn giải quyết. Sau khi cài đặt, bạn có thể sử dụng mã sau để tải YOLO11 mô hình phát hiện đối tượng và đưa ra dự đoán trên hình ảnh.

Hình 6. Chạy inference trên ảnh bằng YOLO11n.

‍

Đào tạo một phong tục YOLO11 người mẫu

YOLO11 cũng hỗ trợ đào tạo tùy chỉnh để phù hợp hơn với các trường hợp sử dụng cụ thể của bạn. Bằng cách tinh chỉnh mô hình, bạn có thể điều chỉnh nó cho phù hợp detect các đối tượng liên quan đến dự án của bạn. Ví dụ, khi sử dụng thị giác máy tính trong chăm sóc sức khỏe , một YOLO11 mô hình có thể được sử dụng để detect những bất thường cụ thể trong hình ảnh y tế, chẳng hạn như khối u trong ảnh chụp MRI hoặc gãy xương trong ảnh chụp X-quang, giúp bác sĩ đưa ra chẩn đoán nhanh hơn và chính xác hơn.

Đoạn mã dưới đây trình bày cách tải và đào tạo một YOLO11 Mô hình phát hiện đối tượng. Bạn có thể bắt đầu từ tệp cấu hình YAML hoặc mô hình được đào tạo trước, chuyển trọng số và đào tạo trên các tập dữ liệu như COCO để có khả năng phát hiện đối tượng tinh vi hơn.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.yaml")  # build a new model from YAML
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)
model = YOLO("yolo11n.yaml").load("yolo11n.pt")  # build from YAML and transfer weights

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Sau khi bạn huấn luyện một mô hình, bạn cũng có thể xuất mô hình đã huấn luyện ở nhiều định dạng khác nhau để triển khai trong các môi trường khác nhau.

YOLO11 phát hiện đối tượng trên Ultralytics TRUNG TÂM

Đối với những người đang tìm kiếm một giải pháp thay thế không cần mã, Ultralytics HUB cung cấp nền tảng Vision AI dễ sử dụng để đào tạo và triển khai YOLO các mô hình, bao gồm YOLO11 .

Để chạy phát hiện đối tượng trên hình ảnh, chỉ cần tạo một tài khoản, điều hướng đến phần 'Mô hình' và chọn YOLO11 Biến thể mô hình phát hiện đối tượng. Tải ảnh của bạn lên và nền tảng sẽ hiển thị các đối tượng được phát hiện trong phần xem trước.

Hình 7. Chạy suy luận trên Ultralytics TRUNG TÂM.

‍

Bằng cách kết hợp tính linh hoạt của Python gói với sự dễ dàng của HUB, YOLO11 giúp các nhà phát triển và doanh nghiệp dễ dàng khai thác sức mạnh của công nghệ phát hiện đối tượng tiên tiến.

Những điều cần nhớ

YOLO11 Thiết lập một tiêu chuẩn mới về phát hiện đối tượng, kết hợp độ chính xác cao với tính linh hoạt để đáp ứng nhu cầu của nhiều ngành công nghiệp khác nhau. Từ việc nâng cao khả năng phân tích bán lẻ đến quản lý cơ sở hạ tầng thành phố thông minh, YOLO11 được xây dựng để có hiệu suất đáng tin cậy, thời gian thực trên vô số ứng dụng.

Với các tùy chọn đào tạo tùy chỉnh và giao diện dễ sử dụng thông qua Ultralytics HUB, tích hợp YOLO11 vào quy trình làm việc của bạn chưa bao giờ đơn giản hơn thế. Cho dù bạn là nhà phát triển đang khám phá thị giác máy tính hay doanh nghiệp đang tìm cách đổi mới với AI, YOLO11 cung cấp các công cụ bạn cần để thành công.

Để tìm hiểu thêm, hãy xem kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự lái và computer vision cho nông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Cách sử dụng Ultralytics YOLO11 để phát hiện đối tượng

Phát hiện đối tượng là gì?