Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Tìm hiểu cách YOLOE cho phép bạn tìm các đối tượng bằng lời nhắc hoặc ảnh đơn giản. Nó cho phép thị giác máy tính thông minh hơn, nhanh hơn mà không cần đào tạo lại hoặc tinh chỉnh các mô hình.
Phát hiện đối tượng là một nhiệm vụ quan trọng của thị giác máy tính, trong đó mục tiêu là xác định và định vị các đối tượng trong hình ảnh hoặc video. Đây là một phần quan trọng của thị giác máy tính , một lĩnh vực trí tuệ nhân tạo (AI) cho phép máy móc hiểu và diễn giải dữ liệu trực quan. Ví dụ, phát hiện đối tượng có thể giúp xác định một chiếc ô tô trong ảnh hoặc phát hiện một người trong nguồn cấp dữ liệu video.
Một trong những loạt mô hình nổi tiếng nhất hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng là loạt mô hình YOLO (You Only Look Once). Được thiết kế để có tốc độ và độ chính xác, các mô hình YOLO đã liên tục được cải thiện theo thời gian. Ví dụ, một trong những phiên bản mới nhất, Ultralytics YOLO11 , hoạt động tốt trong các tình huống thực tế, cung cấp kết quả chính xác ngay cả trong các môi trường phức tạp hơn.
Để thúc đẩy tiến trình này hơn nữa, một mô hình mới có tên gọi là YOLOE nhằm mục đích mở rộng khả năng của các mô hình YOLO. Không giống như các mô hình truyền thống đòi hỏi phải đào tạo lại để nhận dạng các đối tượng mới, YOLOE có thể làm theo các lời nhắc văn bản hoặc hình ảnh đơn giản để phát hiện các đối tượng mà nó chưa từng thấy trước đây, giúp nó thích ứng hơn nhiều với các môi trường thay đổi.
Trong bài viết này, chúng ta sẽ xem xét kỹ hơn những điểm làm nên sự độc đáo của YOLOE , cách so sánh với các mô hình YOLO trước đây và cách bạn có thể bắt đầu sử dụng nó ngay hôm nay. Hãy bắt đầu nào!
Tổng quan về YOLOE
YOLOE là một mô hình thị giác máy tính đưa việc phát hiện đối tượng lên một tầm cao mới. Nó được giới thiệu vào tháng 3 năm 2025 bởi các nhà nghiên cứu tại Đại học Thanh Hoa. Điểm khiến YOLOE khác biệt so với các mô hình truyền thống là việc sử dụng phát hiện từ vựng mở.
Trong khi hầu hết các mô hình được đào tạo để nhận dạng một danh sách cố định các đối tượng, YOLOE cho phép bạn chỉ định những gì cần tìm kiếm bằng cách sử dụng mô tả ngắn hoặc hình ảnh ví dụ. Ví dụ, nếu bạn đang tìm kiếm "ba lô màu xanh lá cây", bạn có thể nhập mô tả đó hoặc cho mô hình xem ảnh và YOLOE sẽ định vị nó trong cảnh.
Ngoài ra, ngay cả khi không có bất kỳ lời nhắc nào, YOLOE vẫn có thể tự phát hiện nhiều vật thể thường ngày. Khả năng nhận dạng các vật thể mà nó chưa từng thấy trước đây được gọi là phát hiện zero-shot . Nó đặc biệt hữu ích trong các môi trường năng động, nơi nhiệm vụ hoặc các đối tượng quan tâm có thể thay đổi bất ngờ.
YOLOE hỗ trợ nhiều tính năng được thiết kế để nâng cao hiệu suất của nó trong các ứng dụng thực tế. Với khả năng xử lý cả dữ liệu đầu vào có cấu trúc và không có cấu trúc, YOLOE mở ra những khả năng mới cho việc phát hiện và phân đoạn đối tượng.
Sau đây là một số tính năng chính mà mô hình này mang lại:
Phát hiện dựa trên lời nhắc: YOLOE có thể tìm kiếm các đối tượng dựa trên lời nhắc văn bản ngắn hoặc hình ảnh ví dụ. Điều này có nghĩa là bạn không cần phải đào tạo lại mô hình mỗi khi nhiệm vụ của bạn thay đổi; chỉ cần mô tả hoặc hiển thị cho mô hình những gì bạn đang tìm kiếm.
Phân đoạn thể hiện: Ngoài việc vẽ các hộp giới hạn xung quanh các đối tượng, YOLOE có thể phác thảo hình dạng chính xác của chúng bằng cách sử dụng phân đoạn thể hiện. Điều này đặc biệt hữu ích khi các đối tượng chồng chéo hoặc khi bạn cần biết ranh giới chính xác của một đối tượng.
Nhận dạng đối tượng không cần nhắc nhở: YOLOE có thể nhận dạng đối tượng ngay cả khi không có hướng dẫn cụ thể. Nó sử dụng một tập hợp các mô tả đã học trước để nhanh chóng xác định đối tượng, giúp quá trình này nhanh hơn và hiệu quả hơn.
So sánh YOLOE với các mô hình YOLO khác
Bây giờ chúng ta đã hiểu rõ hơn về YOLOE, hãy cùng xem xét một số mô hình tương tự trong họ YOLO.
Khi thị giác máy tính phát triển, các mô hình YOLO cũng vậy. Ví dụ, Ultralytics YOLOv8 hỗ trợ các tác vụ mới như phân đoạn và phân loại, trong khi các phiên bản sau, như Ultralytics YOLO11, tập trung vào việc cải thiện độ chính xác và hiệu suất cho nhiều tác vụ hơn.
Ngoài ra, YOLO-World được phát hành vào tháng 1 năm 2024 và giới thiệu khả năng sử dụng lời nhắc bằng văn bản, cho phép người dùng mô tả các đối tượng họ muốn tìm. Mặc dù YOLO-World là một lựa chọn tuyệt vời để phát hiện zero-shot, nhưng nó thiếu các tính năng như phân đoạn trường hợp và hỗ trợ lời nhắc trực quan.
YOLOE được xây dựng dựa trên YOLO-World bằng cách bổ sung các khả năng này, cải thiện tính linh hoạt và hiệu suất, đồng thời cung cấp một công cụ có tác động lớn hơn cho các ứng dụng thị giác máy tính trong thế giới thực.
Hình 2. YOLO-World và YOLOE đều hỗ trợ phát hiện zero-shot.
Sử dụng YOLOE với gói Ultralytics Python
Cho dù bạn muốn phát hiện các đối tượng cụ thể hay khám phá mọi thứ trong một hình ảnh, việc bắt đầu với YOLOE rất đơn giản. Mô hình này được hỗ trợ bởi gói Ultralytics Python, giúp bạn dễ dàng tích hợp vào các dự án của mình. Tiếp theo, chúng ta hãy cùng tìm hiểu cách sử dụng nó.
Cài đặt gói Ultralytics
Bước đầu tiên là cài đặt gói Ultralytics Python bằng trình quản lý gói như 'pip'. Bạn có thể thực hiện việc này bằng cách chạy lệnh “pip install ultralytics” trong terminal hoặc dấu nhắc lệnh.
Sau khi cài đặt gói, bạn sẽ có mọi thứ cần thiết để tải mô hình, đưa ra dự đoán và thử nghiệm với các chế độ phát hiện khác nhau. Nếu bạn gặp bất kỳ sự cố nào trong quá trình cài đặt, tài liệu chính thức của Ultralytics cung cấp phần khắc phục sự cố hữu ích.
Có một số cách khác nhau để sử dụng YOLOE để chạy dự đoán. Chạy dự đoán có nghĩa là sử dụng mô hình đã được đào tạo để xác định và định vị các đối tượng trong hình ảnh hoặc video. Các phương pháp khác nhau này cho phép bạn tùy chỉnh cách bạn tương tác với mô hình dựa trên nhu cầu cụ thể của mình.
Chúng ta hãy thảo luận từng phương pháp một.
Phát hiện các đối tượng cụ thể bằng lời nhắc văn bản hoặc hình ảnh
YOLOE có thể phát hiện các đối tượng dựa trên mô tả văn bản ngắn. Ví dụ, nếu bạn đang tìm một con ngựa đang chuyển động, bạn có thể sử dụng lời nhắc như "ngựa đang đi bộ".
Để bắt đầu, trước tiên, hãy tải mô hình YOLOE đã được đào tạo trước và đặt lời nhắc (mô tả về những gì bạn muốn mô hình tìm kiếm) như được hiển thị trong đoạn mã bên dưới.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Sau khi thiết lập mô hình và lời nhắc, bạn có thể chạy mô hình trên hình ảnh hoặc video. Thay thế đường dẫn tệp trong mã bằng đường dẫn đến tệp hình ảnh hoặc video của bạn:
Thao tác này sẽ hiển thị hình ảnh với vật thể được phát hiện được đánh dấu rõ ràng dựa trên lời nhắc của bạn. Bạn có thể thay đổi lời nhắc để tìm kiếm các vật thể khác nhau, chẳng hạn như "vỏ vali màu đỏ", "xe đạp" hoặc "ngựa vằn", tùy thuộc vào những gì bạn đang tìm kiếm.
Hình 3. Ví dụ về việc sử dụng YOLOE để phát hiện các đối tượng cụ thể bằng lời nhắc văn bản.
Tương tự, bạn có thể sử dụng hình ảnh để nhắc YOLOE bằng gói Ultralytics Python. Ở chế độ nhắc trực quan, mô hình sử dụng hình ảnh để tìm các mục có giao diện tương tự trong một cảnh khác. Điều này đặc biệt hữu ích đối với các đối tượng khó mô tả hoặc không có nhãn rõ ràng.
Trong một số trường hợp, bạn có thể không biết chính xác phải tìm kiếm gì hoặc bạn có thể không tìm kiếm một đối tượng cụ thể. Đó là lúc chế độ không nhắc nhở trở nên hữu ích.
Với tùy chọn này, bạn không cần phải nhập mô tả hoặc cung cấp hình ảnh ví dụ. YOLOE chỉ cần tự phân tích hình ảnh và phát hiện mọi thứ mà nó có thể nhận dạng, chẳng hạn như con người, động vật, đồ nội thất hoặc các vật dụng hàng ngày.
Đây là cách hữu ích để khám phá một cảnh mà không cần đưa ra bất kỳ hướng dẫn cụ thể nào cho người mẫu. Cho dù bạn đang quét một căn phòng đông đúc hay xem lại cảnh quay có nhiều hoạt động, chế độ không cần nhắc nhở sẽ giúp bạn xem nhanh những gì có trong hình ảnh.
Bạn có thể sử dụng mã sau để chạy YOLOE ở chế độ không cần nhắc. Đầu tiên, mô hình được tải, sau đó xử lý hình ảnh và tự động phát hiện các đối tượng trong đó. Cuối cùng, kết quả được hiển thị và các đối tượng được phát hiện được tô sáng.
Hãy đảm bảo thay thế đường dẫn tệp bằng đường dẫn thực tế tới hình ảnh của bạn.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
Hình ảnh hiển thị bên dưới là ví dụ về những gì YOLOE có thể phát hiện ở chế độ không có lời nhắc.
Hình 4. Sử dụng YOLOE ở chế độ không cần nhắc nhở.
Ứng dụng thời gian thực của YOLOE
Khả năng phản hồi cả lời nhắc văn bản và hình ảnh của YOLOE khiến nó trở thành công cụ đáng tin cậy cho các ứng dụng thời gian thực. Tính linh hoạt của nó đặc biệt hữu ích trong môi trường có nhịp độ nhanh, nơi thời gian và độ chính xác là điều cần thiết.
Hãy cùng khám phá một số ví dụ thực tế về cách sử dụng YOLOE.
Cải thiện việc xử lý hành lý: Phát hiện hành lý theo thời gian thực
Tại các sân bay đông đúc, việc tìm kiếm hành lý cụ thể có thể là một thách thức, đặc biệt là khi xử lý các hành lý bị mất. YOLOE có thể hợp lý hóa quy trình này bằng cách hỗ trợ quét video trực tiếp và nhanh chóng xác định các mặt hàng dựa trên các lời nhắc đơn giản như "túi đỏ".
Nếu một chiếc túi bị mất hoặc thất lạc, nhân viên có thể dễ dàng thay đổi lời nhắc để tìm kiếm một món đồ khác, chẳng hạn như "vali đen". Khả năng thích ứng ngay lập tức này có thể giúp nhân viên sân bay nhanh chóng tìm đúng hành lý mà không cần xem lại nhiều giờ quay phim hoặc đào tạo lại mô hình, giúp việc xử lý hành lý và giải quyết các vấn đề về hành lý bị mất nhanh hơn và hiệu quả hơn nhiều.
Giám sát không gian công cộng với YOLOE
Cảnh quay giám sát không gian công cộng, chẳng hạn như chợ đông đúc và quán cà phê, thường bao gồm sự kết hợp giữa người, đồ vật và hoạt động thay đổi trong suốt cả ngày. YOLOE có thể phân tích cảnh quay này theo thời gian thực bằng chế độ không cần nhắc nhở, tự động phát hiện các vật dụng như túi xách, bàn hoặc xe đạp mà không cần hướng dẫn cụ thể.
Hình 5. YOLOE có thể phát hiện nhiều vật thể khác nhau ở nơi công cộng đông đúc.
Điều này đặc biệt hữu ích cho các nhóm an ninh để phát hiện các vật dụng không có người trông coi hoặc theo dõi chuyển động của đám đông. Khả năng phát hiện nhiều vật thể cùng lúc của YOLOE giúp quản lý không gian công cộng dễ dàng hơn trong các sự kiện hoặc thời gian đông đúc, giúp các nhóm luôn được thông báo và phản hồi.
Ưu và nhược điểm của YOLOE
Sau đây là một số lợi ích chính của việc sử dụng YOLOE cho các ứng dụng thị giác máy tính:
Hiệu suất thời gian thực : YOLOE được tối ưu hóa để xử lý nhanh chóng và hiệu quả, cho phép phát hiện thời gian thực, ngay cả trong môi trường năng động như luồng video trực tiếp hoặc không gian công cộng đông đúc.
Khả năng mở rộng : YOLOE có khả năng mở rộng và hoạt động tốt cho nhiều ứng dụng khác nhau, từ an ninh và giám sát đến bán lẻ, chăm sóc sức khỏe và xe tự hành.
Dễ sử dụng : Vì YOLOE được hỗ trợ bởi gói Ultralytics Python nên rất dễ tích hợp vào các dự án thị giác máy tính hiện có của bạn.
Tuy nhiên, có một số hạn chế cần lưu ý khi sử dụng YOLOE. Sau đây là một số yếu tố cần cân nhắc:
Yêu cầu dữ liệu đào tạo đầy đủ : Mặc dù YOLOE hỗ trợ phát hiện zero-shot, hiệu suất của nó trên các vật thể không nhìn thấy phụ thuộc vào mức độ tổng quát hóa từ dữ liệu đào tạo của nó. Trong một số trường hợp, nó có thể cần dữ liệu bổ sung hoặc tinh chỉnh để thực hiện tốt trong các tác vụ có tính chuyên môn cao.
Nhạy cảm với chất lượng đầu vào : Độ chính xác của mô hình có thể bị ảnh hưởng bởi hình ảnh hoặc video chất lượng thấp. Đầu vào mờ hoặc thiếu sáng có thể làm giảm khả năng phát hiện chính xác các đối tượng của mô hình, do đó đầu vào chất lượng cao rất quan trọng để có hiệu suất tối ưu.
Những điểm chính
YOLOE mang lại sự linh hoạt hơn cho thị giác máy tính bằng cách cho phép người dùng hướng dẫn phát hiện bằng lời nhắc văn bản hoặc hình ảnh. Nó hoạt động tốt trong các tình huống thực tế khi cảnh thay đổi nhanh chóng và không thể đào tạo lại.
Từ việc xử lý hành lý đến giám sát không gian công cộng, YOLOE thích ứng với các nhiệm vụ mới một cách dễ dàng. Khi AI trở nên dễ tiếp cận hơn, các mô hình như YOLOE đang giúp nhiều ngành công nghiệp hơn sử dụng công nghệ thị giác theo những cách thiết thực và hiệu quả.