Cách sử dụng Ultralytics YOLO11 để phát hiện đối tượng
Khám phá cách model Ultralytics YOLO11 mới có thể được sử dụng để phát hiện đối tượng nhằm đạt được độ chính xác cao hơn trong nhiều ứng dụng trên đa dạng ngành nghề.

Thị giác máy tính là một lĩnh vực của trí tuệ nhân tạo (AI) giúp máy móc diễn giải và hiểu thông tin hình ảnh để thực hiện các tác vụ thiết yếu như phát hiện đối tượng. Không giống như phân loại hình ảnh, phát hiện đối tượng không chỉ xác định các đối tượng trong ảnh mà còn chỉ ra vị trí chính xác của chúng. Điều này làm cho nó trở thành một công cụ quan trọng cho các ứng dụng thị giác AI như xe tự lái, hệ thống an ninh thời gian thực và tự động hóa kho bãi.
Theo thời gian, công nghệ phát hiện đối tượng đã trở nên tiên tiến và dễ sử dụng hơn. Một bước tiến lớn đã được công bố tại sự kiện hybrid thường niên của Ultralytics, YOLO Vision 2024 (YV24), với việc ra mắt mô hình Ultralytics YOLO11. YOLO11 cải thiện độ chính xác và hiệu suất trong khi hỗ trợ các tác vụ tương tự như YOLOv8, giúp người dùng các mô hình trước đây dễ dàng chuyển đổi một cách liền mạch.

Hình 1. Ví dụ về việc sử dụng mô hình Ultralytics YOLO11 để phát hiện đối tượng.
Trong bài viết này, chúng ta sẽ phân tích phát hiện đối tượng là gì, nó khác biệt thế nào với các tác vụ thị giác máy tính khác, và khám phá các ứng dụng thực tế của nó. Chúng ta cũng sẽ hướng dẫn bạn cách sử dụng mô hình YOLO11 với gói Python của Ultralytics và nền tảng Ultralytics HUB. Hãy bắt đầu thôi!
Link to this sectionPhát hiện đối tượng là gì?#
Phát hiện đối tượng là một tác vụ cốt lõi trong thị giác máy tính, làm được nhiều việc hơn là chỉ xác định đối tượng trong ảnh. Không giống như phân loại hình ảnh, vốn chỉ xác định xem một đối tượng cụ thể có hiện diện hay không, phát hiện đối tượng nhận diện nhiều đối tượng và chỉ ra vị trí chính xác của chúng bằng các bbox.
Ví dụ, nó có thể nhận diện và định vị khuôn mặt trong ảnh nhóm, xe cộ trên đường phố đông đúc, hoặc sản phẩm trên kệ hàng. Việc kết hợp nhận dạng và định vị đối tượng làm cho nó trở nên đặc biệt hữu ích cho các ứng dụng như giám sát, theo dõi đám đông và quản lý kho hàng tự động.

Hình 2. Sử dụng YOLO11 để phát hiện khuôn mặt.
Điều làm cho phát hiện đối tượng trở nên khác biệt so với các tác vụ khác như phân đoạn ngữ nghĩa hoặc phân đoạn cá thể chính là sự tập trung và hiệu quả của nó.
Phân đoạn ngữ nghĩa gắn nhãn mọi pixel trong ảnh nhưng không phân biệt giữa các đối tượng riêng lẻ cùng loại (ví dụ: tất cả khuôn mặt trong ảnh sẽ được nhóm thành "khuôn mặt"). Phân đoạn cá thể đi xa hơn bằng cách tách biệt từng đối tượng và phác thảo hình dạng chính xác của nó, ngay cả đối với các đối tượng cùng lớp.
Tuy nhiên, phát hiện đối tượng cung cấp một phương pháp hợp lý hơn bằng cách xác định và phân loại các đối tượng trong khi đánh dấu vị trí của chúng. Điều này làm cho nó trở nên lý tưởng cho các tác vụ thời gian thực như phát hiện khuôn mặt trong cảnh quay an ninh hoặc xác định chướng ngại vật cho xe tự lái.
Link to this sectionCác ứng dụng của YOLO11 và phát hiện đối tượng#
Các tính năng phát hiện đối tượng tiên tiến của YOLO11 giúp nó trở nên hữu ích trong nhiều ngành công nghiệp. Hãy xem qua một số ví dụ.
Link to this sectionSử dụng YOLO11 cho phân tích bán lẻ#
YOLO11 và phát hiện đối tượng đang tái định nghĩa phân tích bán lẻ bằng cách làm cho quản lý hàng tồn kho và giám sát kệ hàng trở nên hiệu quả và chính xác hơn. Khả năng phát hiện đối tượng nhanh chóng và đáng tin cậy của mô hình giúp các nhà bán lẻ theo dõi mức tồn kho, sắp xếp kệ hàng và giảm sai sót trong kiểm kê.
Ví dụ, YOLO11 có thể phát hiện các mặt hàng cụ thể như kính râm trên kệ hàng. Nhưng tại sao nhà bán lẻ lại muốn giám sát một chiếc kệ? Việc giữ cho kệ hàng luôn đầy đủ và ngăn nắp là rất quan trọng để đảm bảo khách hàng có thể tìm thấy những gì họ cần, điều này ảnh hưởng trực tiếp đến doanh số. Bằng cách giám sát kệ hàng trong thời gian thực, các nhà bán lẻ có thể nhanh chóng phát hiện khi hàng hóa sắp hết, bị đặt sai chỗ hoặc quá tải, giúp họ duy trì một quầy hàng ngăn nắp và hấp dẫn giúp cải thiện trải nghiệm mua sắm.

Hình 3. Ví dụ về việc sử dụng YOLO11 để phát hiện sản phẩm trên kệ.
Link to this sectionYOLO11 trong các ứng dụng thành phố thông minh#
Một thành phố nhộn nhịp dựa vào luồng giao thông thông suốt và đường phố an toàn để vận hành hiệu quả, và YOLO11 có thể giúp biến điều này thành hiện thực. Trên thực tế, nhiều ứng dụng thành phố thông minh có thể được tích hợp với YOLO11.
Một trường hợp thú vị liên quan đến việc sử dụng phát hiện đối tượng để xác định biển số xe trên các phương tiện đang di chuyển. Bằng cách đó, YOLO11 có thể hỗ trợ thu phí nhanh hơn, quản lý giao thông tốt hơn và thực thi quy định nhanh chóng hơn.

Hình 4. Sử dụng phát hiện đối tượng và YOLO11 để phát hiện biển số xe.
Những thông tin chi tiết từ các hệ thống thị giác AI giám sát đường bộ có thể cảnh báo cơ quan chức năng về các vi phạm giao thông hoặc tắc nghẽn trước khi chúng leo thang thành các vấn đề lớn hơn. YOLO11 cũng có thể phát hiện người đi bộ và người đi xe đạp, giúp đường phố an toàn và hiệu quả hơn cho tất cả mọi người.
Trên thực tế, khả năng xử lý dữ liệu hình ảnh của YOLO11 làm cho nó trở thành một công cụ mạnh mẽ để cải thiện cơ sở hạ tầng thành phố. Ví dụ, nó có thể giúp tối ưu hóa thời gian đèn giao thông bằng cách phân tích sự di chuyển của phương tiện và người đi bộ. Nó cũng có thể tăng cường an toàn trong các khu vực trường học bằng cách phát hiện trẻ em và cảnh báo người lái xe đi chậm lại. Với YOLO11, các thành phố có thể thực hiện các biện pháp chủ động để giải quyết các thách thức và tạo ra một môi trường hiệu quả hơn cho mọi người.
Link to this sectionPhát hiện video thời gian thực với YOLO11: Tăng khả năng tiếp cận#
Phát hiện đối tượng thời gian thực đề cập đến khả năng của một hệ thống trong việc xác định và phân loại các đối tượng trong một luồng video trực tiếp ngay khi chúng xuất hiện. YOLO11 được thiết kế cho hiệu suất thời gian thực vượt trội và xuất sắc trong việc hỗ trợ khả năng này. Các ứng dụng của nó vượt xa việc hợp lý hóa các quy trình - nó còn có thể giúp tạo ra một thế giới hòa nhập và dễ tiếp cận hơn.
Ví dụ, YOLO11 có thể hỗ trợ người khiếm thị bằng cách xác định các đối tượng trong thời gian thực. Dựa trên các kết quả phát hiện, các mô tả âm thanh có thể được cung cấp, giúp người dùng điều hướng môi trường xung quanh với sự độc lập cao hơn.
Hãy xem xét một người khiếm thị đi mua sắm hàng tạp hóa. Việc chọn đúng mặt hàng có thể là một thách thức, nhưng YOLO11 có thể hỗ trợ. Khi họ đặt các món hàng vào giỏ, một hệ thống tích hợp YOLO11 có thể được sử dụng để xác định từng mặt hàng - như chuối, bơ, hoặc một hộp sữa - và cung cấp mô tả âm thanh theo thời gian thực. Điều này cho phép họ xác nhận các lựa chọn của mình và đảm bảo họ đã có mọi thứ họ cần. Bằng cách nhận diện các vật dụng hàng ngày, YOLO11 có thể làm cho việc mua sắm trở nên đơn giản hơn.

Hình 5. Phát hiện đối tượng có thể giúp làm cho thế giới trở nên dễ tiếp cận hơn cho người khiếm thị.
Link to this sectionHướng dẫn từng bước về phát hiện đối tượng với YOLO11#
Giờ đây, chúng ta đã đề cập đến những kiến thức cơ bản về phát hiện đối tượng và các ứng dụng đa dạng của nó, hãy cùng tìm hiểu cách bạn có thể bắt đầu với mô hình Ultralytics YOLO11 cho các tác vụ như phát hiện đối tượng.
Có hai cách đơn giản để sử dụng YOLO11: thông qua gói Python của Ultralytics hoặc Ultralytics HUB. Hãy cùng khám phá cả hai phương pháp, bắt đầu với gói Python.
Link to this sectionChạy suy luận sử dụng YOLO11#
Suy luận (inference) là khi một mô hình AI phân tích dữ liệu mới, chưa từng thấy để đưa ra dự đoán, phân loại thông tin hoặc cung cấp thông tin chi tiết dựa trên những gì nó đã học được trong quá trình huấn luyện. Đối với phát hiện đối tượng, điều đó có nghĩa là xác định và định vị các đối tượng cụ thể trong một hình ảnh hoặc video, vẽ bbox xung quanh chúng và gắn nhãn chúng dựa trên quá trình huấn luyện của mô hình.
Để thực hiện suy luận bằng mô hình phát hiện đối tượng YOLO11, trước tiên bạn cần cài đặt gói Python của Ultralytics thông qua pip, conda hoặc Docker. Nếu bạn gặp bất kỳ vấn đề cài đặt nào, hãy xem hướng dẫn khắc phục sự cố để biết các mẹo và thủ thuật giúp bạn giải quyết chúng. Sau khi cài đặt, bạn có thể sử dụng đoạn mã sau để tải mô hình phát hiện đối tượng YOLO11 và thực hiện dự đoán trên một hình ảnh.

Hình 6. Chạy suy luận trên hình ảnh bằng YOLO11n.
Link to this sectionHuấn luyện một mô hình YOLO11 tùy chỉnh#
YOLO11 cũng hỗ trợ huấn luyện tùy chỉnh để phù hợp hơn với các trường hợp sử dụng cụ thể của bạn. Bằng cách tinh chỉnh mô hình, bạn có thể điều chỉnh nó để phát hiện các đối tượng liên quan đến dự án của mình. Ví dụ, khi sử dụng thị giác máy tính trong chăm sóc sức khỏe, một mô hình YOLO11 được huấn luyện tùy chỉnh có thể được sử dụng để phát hiện các bất thường cụ thể trong hình ảnh y tế, chẳng hạn như khối u trong ảnh chụp MRI hoặc gãy xương trong ảnh X-quang, giúp các bác sĩ đưa ra chẩn đoán nhanh hơn và chính xác hơn.
Đoạn mã bên dưới giới thiệu cách tải và huấn luyện mô hình YOLO11 cho phát hiện đối tượng. Bạn có thể bắt đầu từ tệp cấu hình YAML hoặc mô hình đã được huấn luyện trước, chuyển đổi trọng số và huấn luyện trên các tập dữ liệu như COCO để có khả năng phát hiện đối tượng tinh tế hơn.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.yaml") # build a new model from YAML
model = YOLO("yolo11n.pt") # load a pretrained model (recommended for training)
model = YOLO("yolo11n.yaml").load("yolo11n.pt") # build from YAML and transfer weights
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)Sau khi huấn luyện một mô hình, bạn cũng có thể xuất mô hình đã huấn luyện sang các định dạng khác nhau để triển khai trong các môi trường khác nhau.
Link to this sectionPhát hiện đối tượng YOLO11 trên Ultralytics HUB#
Đối với những người đang tìm kiếm một giải pháp thay thế không cần mã (no-code), Ultralytics HUB cung cấp một nền tảng thị giác AI dễ sử dụng để huấn luyện và triển khai các mô hình YOLO, bao gồm cả YOLO11.
Để chạy phát hiện đối tượng trên hình ảnh, chỉ cần tạo một tài khoản, điều hướng đến phần ‘Models’ và chọn biến thể mô hình phát hiện đối tượng YOLO11. Tải lên hình ảnh của bạn và nền tảng sẽ hiển thị các đối tượng được phát hiện trong phần xem trước.

Hình 7. Chạy suy luận trên Ultralytics HUB.
Bằng cách kết hợp tính linh hoạt của gói Python với sự dễ dàng của HUB, YOLO11 giúp các nhà phát triển và doanh nghiệp dễ dàng khai thác sức mạnh của công nghệ phát hiện đối tượng tiên tiến.
Link to this sectionCác điểm chính cần lưu ý#
YOLO11 thiết lập một tiêu chuẩn mới trong phát hiện đối tượng, kết hợp độ chính xác cao với tính linh hoạt để đáp ứng nhu cầu của nhiều ngành công nghiệp. Từ việc cải thiện phân tích bán lẻ đến quản lý cơ sở hạ tầng thành phố thông minh, YOLO11 được xây dựng cho hiệu suất thời gian thực, đáng tin cậy trên vô số ứng dụng.
Với các tùy chọn huấn luyện tùy chỉnh và giao diện dễ sử dụng thông qua Ultralytics HUB, việc tích hợp YOLO11 vào quy trình làm việc của bạn chưa bao giờ đơn giản hơn thế. Cho dù bạn là một nhà phát triển đang khám phá thị giác máy tính hay một doanh nghiệp đang muốn đổi mới với AI, YOLO11 cung cấp các công cụ bạn cần để thành công.
Để tìm hiểu thêm, hãy xem kho lưu trữ GitHub của chúng tôi và tham gia với cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự lái và thị giác máy tính cho nông nghiệp trên các trang giải pháp của chúng tôi. 🚀






