Tìm hiểu cách YOLOE cho phép bạn tìm các đối tượng bằng lời nhắc hoặc ảnh đơn giản. Nó cho phép thị giác máy tính thông minh hơn, nhanh hơn mà không cần đào tạo lại hoặc tinh chỉnh các mô hình.
Phát hiện đối tượng là một nhiệm vụ quan trọng của thị giác máy tính, trong đó mục tiêu là xác định và định vị các đối tượng trong hình ảnh hoặc video. Đây là một phần quan trọng của thị giác máy tính , một lĩnh vực trí tuệ nhân tạo (AI) cho phép máy móc hiểu và diễn giải dữ liệu trực quan. Ví dụ, phát hiện đối tượng có thể giúp xác định một chiếc ô tô trong ảnh hoặc phát hiện một người trong nguồn cấp dữ liệu video.
Một trong những loạt mô hình nổi tiếng nhất hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng là YOLO (Bạn chỉ nhìn một lần) loạt mô hình. Được thiết kế để có tốc độ và độ chính xác, YOLO Các mô hình liên tục được cải thiện theo thời gian. Ví dụ, một trong những phiên bản mới nhất, Ultralytics YOLO11 , hoạt động tốt trong các tình huống thực tế, cung cấp kết quả chính xác ngay cả trong các môi trường phức tạp hơn.
Để thúc đẩy tiến trình này hơn nữa, một mô hình mới có tên gọi là YOLOE nhằm mục đích mở rộng khả năng của YOLO mô hình. Không giống như các mô hình truyền thống đòi hỏi phải đào tạo lại để nhận dạng các vật thể mới, YOLOE có thể làm theo các lời nhắc văn bản hoặc hình ảnh đơn giản để phát hiện các vật thể mà nó chưa từng thấy trước đây, giúp nó thích ứng tốt hơn với các môi trường thay đổi.
Trong bài viết này, chúng ta sẽ xem xét kỹ hơn những gì làm cho YOLOE trở nên độc đáo , cách nó so sánh với các phiên bản trước YOLO và cách bạn có thể bắt đầu sử dụng nó ngay hôm nay. Hãy bắt đầu nào!
YOLOE là một mô hình thị giác máy tính đưa việc phát hiện đối tượng lên một tầm cao mới. Nó được giới thiệu vào tháng 3 năm 2025 bởi các nhà nghiên cứu tại Đại học Thanh Hoa. Điểm khiến YOLOE khác biệt so với các mô hình truyền thống là việc sử dụng phát hiện từ vựng mở.
Trong khi hầu hết các mô hình được đào tạo để nhận dạng một danh sách cố định các đối tượng, YOLOE cho phép bạn chỉ định những gì cần tìm kiếm bằng cách sử dụng mô tả ngắn hoặc hình ảnh ví dụ. Ví dụ, nếu bạn đang tìm kiếm "ba lô màu xanh lá cây", bạn có thể nhập mô tả đó hoặc cho mô hình xem ảnh và YOLOE sẽ định vị nó trong cảnh.
Ngoài ra, ngay cả khi không có bất kỳ lời nhắc nào, YOLOE vẫn có thể tự phát hiện nhiều vật thể thường ngày. Khả năng nhận dạng các vật thể mà nó chưa từng thấy trước đây được gọi là phát hiện zero-shot . Nó đặc biệt hữu ích trong các môi trường năng động, nơi nhiệm vụ hoặc các đối tượng quan tâm có thể thay đổi bất ngờ.
YOLOE hỗ trợ nhiều tính năng được thiết kế để nâng cao hiệu suất của nó trong các ứng dụng thực tế. Với khả năng xử lý cả dữ liệu đầu vào có cấu trúc và không có cấu trúc, YOLOE mở ra những khả năng mới cho việc phát hiện và phân đoạn đối tượng.
Sau đây là một số tính năng chính mà mô hình này mang lại:
Bây giờ chúng ta đã hiểu rõ hơn về YOLOE là gì, hãy cùng xem xét một số mô hình trong YOLO gia đình tương tự nhau.
Khi tầm nhìn máy tính đã tiến triển, thì YOLO mô hình. Ví dụ, Ultralytics YOLOv8 đã mang đến sự hỗ trợ cho các tác vụ mới như phân đoạn và phân loại, trong khi các phiên bản sau đó, như Ultralytics YOLO11 , đã tập trung vào việc cải thiện độ chính xác và hiệu suất cho nhiều nhiệm vụ hơn.
Ngoài ra, YOLO -World được phát hành vào tháng 1 năm 2024 và giới thiệu khả năng sử dụng lời nhắc bằng văn bản, cho phép người dùng mô tả các đối tượng họ muốn tìm. Trong khi YOLO -World là một lựa chọn tuyệt vời để phát hiện mục tiêu không có phát bắn, nhưng nó thiếu các tính năng như phân đoạn trường hợp và hỗ trợ nhắc nhở trực quan.
YOLOE xây dựng trên YOLO -World bằng cách bổ sung các khả năng này, cải thiện tính linh hoạt và hiệu suất, đồng thời cung cấp một công cụ có tác động lớn hơn cho các ứng dụng thị giác máy tính trong thế giới thực.
Cho dù bạn muốn phát hiện các đối tượng cụ thể hay khám phá mọi thứ trong một hình ảnh, việc bắt đầu với YOLOE rất đơn giản. Mô hình này được hỗ trợ bởi Ultralytics Python gói, giúp bạn dễ dàng tích hợp vào các dự án của mình. Tiếp theo, chúng ta hãy cùng tìm hiểu cách sử dụng nó.
Bước đầu tiên là cài đặt gói Ultralytics Python bằng trình quản lý gói như 'pip'. Bạn có thể thực hiện việc này bằng cách chạy lệnh “pip install ultralytics ” trong terminal hoặc dấu nhắc lệnh.
Sau khi cài đặt gói, bạn sẽ có mọi thứ cần thiết để tải mô hình, đưa ra dự đoán và thử nghiệm với các chế độ phát hiện khác nhau. Nếu bạn gặp bất kỳ sự cố nào trong quá trình cài đặt, hãy Ultralytics tài liệu cung cấp phần khắc phục sự cố hữu ích.
Có một số cách khác nhau để sử dụng YOLOE để chạy dự đoán. Chạy dự đoán có nghĩa là sử dụng mô hình đã được đào tạo để xác định và định vị các đối tượng trong hình ảnh hoặc video. Các phương pháp khác nhau này cho phép bạn tùy chỉnh cách bạn tương tác với mô hình dựa trên nhu cầu cụ thể của mình.
Chúng ta hãy thảo luận từng phương pháp một.
YOLOE có thể phát hiện các đối tượng dựa trên mô tả văn bản ngắn. Ví dụ, nếu bạn đang tìm một con ngựa đang chuyển động, bạn có thể sử dụng lời nhắc như "ngựa đang đi bộ".
Để bắt đầu, trước tiên, hãy tải mô hình YOLOE đã được đào tạo trước và đặt lời nhắc (mô tả về những gì bạn muốn mô hình tìm kiếm) như được hiển thị trong đoạn mã bên dưới.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Sau khi thiết lập mô hình và lời nhắc, bạn có thể chạy mô hình trên hình ảnh hoặc video. Thay thế đường dẫn tệp trong mã bằng đường dẫn đến tệp hình ảnh hoặc video của bạn:
results = model.predict("path/to/your/image.jpg")
results[0].show()
Thao tác này sẽ hiển thị hình ảnh với vật thể được phát hiện được đánh dấu rõ ràng dựa trên lời nhắc của bạn. Bạn có thể thay đổi lời nhắc để tìm kiếm các vật thể khác nhau, chẳng hạn như "vỏ vali màu đỏ", "xe đạp" hoặc "ngựa vằn", tùy thuộc vào những gì bạn đang tìm kiếm.
Tương tự như vậy, bạn có thể sử dụng hình ảnh để nhắc YOLOE với Ultralytics Python gói. Ở chế độ nhắc nhở trực quan, mô hình sử dụng hình ảnh để tìm các mục có vẻ ngoài tương tự trong một cảnh khác. Điều này đặc biệt hữu ích đối với các đối tượng khó mô tả hoặc không có nhãn rõ ràng.
Để tìm hiểu mã này chi tiết hơn, bạn có thể tham khảo tài liệu Ultralytics .
Trong một số trường hợp, bạn có thể không biết chính xác phải tìm kiếm gì hoặc bạn có thể không tìm kiếm một đối tượng cụ thể. Đó là lúc chế độ không nhắc nhở trở nên hữu ích.
Với tùy chọn này, bạn không cần phải nhập mô tả hoặc cung cấp hình ảnh ví dụ. YOLOE chỉ cần tự phân tích hình ảnh và phát hiện mọi thứ mà nó có thể nhận dạng, chẳng hạn như con người, động vật, đồ nội thất hoặc các vật dụng hàng ngày.
Đây là cách hữu ích để khám phá một cảnh mà không cần đưa ra bất kỳ hướng dẫn cụ thể nào cho người mẫu. Cho dù bạn đang quét một căn phòng đông đúc hay xem lại cảnh quay có nhiều hoạt động, chế độ không cần nhắc nhở sẽ giúp bạn xem nhanh những gì có trong hình ảnh.
Bạn có thể sử dụng mã sau để chạy YOLOE ở chế độ không cần nhắc. Đầu tiên, mô hình được tải, sau đó xử lý hình ảnh và tự động phát hiện các đối tượng trong đó. Cuối cùng, kết quả được hiển thị và các đối tượng được phát hiện được tô sáng.
Hãy đảm bảo thay thế đường dẫn tệp bằng đường dẫn thực tế tới hình ảnh của bạn.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
Hình ảnh hiển thị bên dưới là ví dụ về những gì YOLOE có thể phát hiện ở chế độ không có lời nhắc.
Khả năng phản hồi cả lời nhắc văn bản và hình ảnh của YOLOE khiến nó trở thành công cụ đáng tin cậy cho các ứng dụng thời gian thực. Tính linh hoạt của nó đặc biệt hữu ích trong môi trường có nhịp độ nhanh, nơi thời gian và độ chính xác là điều cần thiết.
Hãy cùng khám phá một số ví dụ thực tế về cách sử dụng YOLOE.
Tại các sân bay đông đúc, việc tìm kiếm hành lý cụ thể có thể là một thách thức, đặc biệt là khi xử lý các hành lý bị mất. YOLOE có thể hợp lý hóa quy trình này bằng cách hỗ trợ quét video trực tiếp và nhanh chóng xác định các mặt hàng dựa trên các lời nhắc đơn giản như "túi đỏ".
Nếu một chiếc túi bị mất hoặc thất lạc, nhân viên có thể dễ dàng thay đổi lời nhắc để tìm kiếm một món đồ khác, chẳng hạn như "vali đen". Khả năng thích ứng ngay lập tức này có thể giúp nhân viên sân bay nhanh chóng tìm đúng hành lý mà không cần xem lại nhiều giờ quay phim hoặc đào tạo lại mô hình, giúp việc xử lý hành lý và giải quyết các vấn đề về hành lý bị mất nhanh hơn và hiệu quả hơn nhiều.
Cảnh quay giám sát không gian công cộng, chẳng hạn như chợ đông đúc và quán cà phê, thường bao gồm sự kết hợp giữa người, đồ vật và hoạt động thay đổi trong suốt cả ngày. YOLOE có thể phân tích cảnh quay này theo thời gian thực bằng chế độ không cần nhắc nhở, tự động phát hiện các vật dụng như túi xách, bàn hoặc xe đạp mà không cần hướng dẫn cụ thể.
Điều này đặc biệt hữu ích cho các nhóm an ninh để phát hiện các vật dụng không có người trông coi hoặc theo dõi chuyển động của đám đông. Khả năng phát hiện nhiều vật thể cùng lúc của YOLOE giúp quản lý không gian công cộng dễ dàng hơn trong các sự kiện hoặc thời gian đông đúc, giúp các nhóm luôn được thông báo và phản hồi.
Sau đây là một số lợi ích chính của việc sử dụng YOLOE cho các ứng dụng thị giác máy tính:
Tuy nhiên, có một số hạn chế cần lưu ý khi sử dụng YOLOE. Sau đây là một số yếu tố cần cân nhắc:
YOLOE mang lại sự linh hoạt hơn cho thị giác máy tính bằng cách cho phép người dùng hướng dẫn phát hiện bằng lời nhắc văn bản hoặc hình ảnh. Nó hoạt động tốt trong các tình huống thực tế khi cảnh thay đổi nhanh chóng và không thể đào tạo lại.
Từ việc xử lý hành lý đến giám sát không gian công cộng, YOLOE thích ứng với các nhiệm vụ mới một cách dễ dàng. Khi AI trở nên dễ tiếp cận hơn, các mô hình như YOLOE đang giúp nhiều ngành công nghiệp hơn sử dụng công nghệ thị giác theo những cách thiết thực và hiệu quả.
Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về các cải tiến AI. Khám phá những tiến bộ mới nhất trong các lĩnh vực như AI trong bán lẻ và thị giác máy tính trong chăm sóc sức khỏe trên các trang giải pháp của chúng tôi. Kiểm tra các tùy chọn cấp phép của chúng tôi và bắt đầu với thị giác máy tính ngay hôm nay!
Bắt đầu hành trình của bạn với tương lai của machine learning