Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

YOLOE là gì? Đưa các mô hình computer vision tiến xa hơn

Abirami Vina

5 phút đọc

8 tháng 5, 2025

Tìm hiểu cách YOLOE cho phép bạn tìm đối tượng bằng một lời nhắc hoặc ảnh đơn giản. Nó cho phép thị giác máy tính thông minh hơn, nhanh hơn mà không cần đào tạo lại hoặc tinh chỉnh mô hình.

Phát hiện đối tượng là một nhiệm vụ quan trọng của computer vision, trong đó mục tiêu là xác định và định vị các đối tượng trong ảnh hoặc video. Đây là một phần quan trọng của computer vision, một lĩnh vực của trí tuệ nhân tạo (AI) cho phép máy móc hiểu và diễn giải dữ liệu trực quan. Ví dụ: object detection có thể giúp xác định một chiếc ô tô trong ảnh hoặc phát hiện một người trong một video.

Một trong những loạt mô hình nổi tiếng nhất hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng là YOLO Dòng sản phẩm (Bạn chỉ nhìn một lần). Được thiết kế để đạt tốc độ và độ chính xác, YOLO Các mô hình đã liên tục được cải tiến theo thời gian. Ví dụ, một trong những phiên bản mới nhất, Ultralytics YOLO11 , hoạt động tốt trong các tình huống thực tế, cung cấp kết quả chính xác ngay cả trong các môi trường phức tạp hơn.

Để thúc đẩy sự tiến bộ này hơn nữa, một mô hình mới có tên YOLOE nhằm mục đích mở rộng khả năng của YOLO mô hình. Không giống như các mô hình truyền thống đòi hỏi phải đào tạo lại để nhận dạng các đối tượng mới, YOLOE có thể làm theo các lời nhắc văn bản hoặc hình ảnh đơn giản để detect những vật thể mà nó chưa từng nhìn thấy trước đây, giúp nó thích nghi tốt hơn với những môi trường thay đổi.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn những gì làm cho YOLOE trở nên độc đáo , cách nó so sánh với các phiên bản trước YOLO và cách bạn có thể bắt đầu sử dụng nó ngay hôm nay. Hãy bắt đầu thôi!

Tổng quan về YOLOE

YOLOE là một mô hình thị giác máy tính đưa việc phát hiện đối tượng tiến thêm một bước nữa. Nó được giới thiệu vào tháng 3 năm 2025 bởi các nhà nghiên cứu tại Đại học Thanh Hoa. Điều làm nên sự khác biệt của YOLOE so với các mô hình truyền thống là việc sử dụng tính năng phát hiện từ vựng mở. 

Trong khi hầu hết các mô hình được huấn luyện để nhận dạng một danh sách đối tượng cố định, YOLOE cho phép bạn chỉ định những gì cần tìm bằng cách sử dụng một mô tả ngắn gọn hoặc một hình ảnh ví dụ. Ví dụ: nếu bạn đang tìm kiếm một chiếc “ba lô màu xanh lá cây”, bạn có thể nhập mô tả đó hoặc cho mô hình xem ảnh, và YOLOE sẽ định vị nó trong khung cảnh.

Ngoài ra, ngay cả khi không có bất kỳ lời nhắc nào, YOLOE vẫn có thể detect Nhiều vật thể hàng ngày có thể tự động nhận dạng. Khả năng nhận dạng vật thể mà nó chưa từng thấy trước đây được gọi là phát hiện zero-shot . Tính năng này đặc biệt hữu ích trong các môi trường năng động, nơi nhiệm vụ hoặc đối tượng quan tâm có thể thay đổi bất ngờ.

Hình 1. Cái nhìn về khả năng của YOLOE.

Các tính năng chính của YOLOE

YOLOE hỗ trợ một loạt các tính năng được thiết kế để nâng cao hiệu suất của nó trong các ứng dụng thực tế. Với khả năng xử lý cả đầu vào có cấu trúc và không có cấu trúc, YOLOE mở ra những khả năng mới cho việc phát hiện và phân đoạn đối tượng. 

Dưới đây là một số tính năng chính mà mô hình này mang lại:

  • Phát hiện dựa trên Prompt: YOLOE có thể tìm kiếm các đối tượng dựa trên một prompt văn bản ngắn hoặc một hình ảnh ví dụ. Điều này có nghĩa là bạn không cần phải huấn luyện lại mô hình mỗi khi tác vụ của bạn thay đổi; chỉ cần mô tả hoặc cho mô hình biết những gì bạn đang tìm kiếm.
  • Phân vùng thể hiện (Instance segmentation): Ngoài việc vẽ các hộp giới hạn xung quanh các đối tượng, YOLOE có thể phác thảo hình dạng chính xác của chúng bằng cách sử dụng phân vùng thể hiện. Điều này đặc biệt hữu ích khi các đối tượng bị chồng chéo hoặc khi bạn cần biết ranh giới chính xác của một đối tượng.
  • Nhận dạng đối tượng không cần Prompt: YOLOE có thể nhận dạng các đối tượng ngay cả khi không có hướng dẫn cụ thể. Nó sử dụng một tập hợp các mô tả đã được học trước để nhanh chóng xác định các đối tượng, làm cho quá trình nhanh hơn và hiệu quả hơn.

So sánh YOLOE với các YOLO các mô hình

Bây giờ chúng ta đã hiểu rõ hơn về YOLOE là gì, hãy cùng xem xét một số mô hình trong YOLO gia đình tương tự. 

Khi tầm nhìn máy tính đã tiến triển, thì YOLO mô hình. Ví dụ, Ultralytics YOLOv8 đã mang đến sự hỗ trợ cho các tác vụ mới như phân đoạn và phân loại, trong khi các phiên bản sau này, như Ultralytics YOLO11 , đã tập trung vào việc cải thiện độ chính xác và hiệu suất cho nhiều nhiệm vụ hơn.

Ngoài ra, YOLO -World được phát hành vào tháng 1 năm 2024 và giới thiệu khả năng sử dụng lời nhắc bằng văn bản, cho phép người dùng mô tả các vật thể họ muốn tìm. Trong khi YOLO -World là một lựa chọn tuyệt vời để phát hiện mục tiêu không có phát bắn, nhưng lại thiếu các tính năng như phân đoạn trường hợp và hỗ trợ nhắc nhở trực quan. 

YOLOE được xây dựng dựa trên YOLO -World bằng cách bổ sung các khả năng này, cải thiện tính linh hoạt và hiệu suất, đồng thời cung cấp một công cụ có tác động mạnh hơn cho các ứng dụng thị giác máy tính trong thế giới thực.

Hình 2. YOLO -World và YOLOE đều hỗ trợ tính năng phát hiện zero-shot.

Sử dụng YOLOE với Ultralytics Python bưu kiện

Cho dù bạn muốn detect các đối tượng cụ thể hoặc khám phá mọi thứ trong hình ảnh, việc bắt đầu với YOLOE rất đơn giản. Mô hình này được hỗ trợ bởi Ultralytics Python gói, giúp bạn dễ dàng tích hợp vào dự án của mình. Tiếp theo, hãy cùng tìm hiểu cách sử dụng nó.

Cài đặt Ultralytics bưu kiện

Bước đầu tiên là cài đặt gói Ultralytics Python bằng trình quản lý gói như 'pip'. Bạn có thể thực hiện việc này bằng cách chạy lệnh "pip install ultralytics " trong terminal hoặc dấu nhắc lệnh.

Sau khi cài đặt xong gói, bạn sẽ có mọi thứ cần thiết để tải mô hình, đưa ra dự đoán và thử nghiệm với các chế độ phát hiện khác nhau. Nếu gặp bất kỳ sự cố nào trong quá trình cài đặt, hãy liên hệ với chính thức. Ultralytics tài liệu cung cấp phần khắc phục sự cố hữu ích. 

Có một vài cách khác nhau để sử dụng YOLOE để chạy dự đoán. Chạy dự đoán có nghĩa là sử dụng mô hình đã huấn luyện để xác định và định vị các đối tượng trong hình ảnh hoặc video. Các phương pháp khác nhau này cho phép bạn tùy chỉnh cách bạn tương tác với mô hình dựa trên nhu cầu cụ thể của bạn.

Hãy thảo luận về từng phương pháp này, lần lượt từng phương pháp một.

Phát hiện các đối tượng cụ thể bằng văn bản hoặc hình ảnh

YOLOE có thể detect đối tượng dựa trên mô tả văn bản ngắn. Ví dụ, nếu bạn đang tìm một con ngựa đang chuyển động, bạn có thể sử dụng gợi ý như "ngựa đang đi bộ".

Để bắt đầu, trước tiên, hãy tải mô hình YOLOE được đào tạo trước và đặt lời nhắc của bạn (mô tả những gì bạn muốn mô hình tìm kiếm) như được hiển thị trong đoạn mã bên dưới.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Sau khi mô hình và lời nhắc của bạn được đặt, bạn có thể chạy mô hình trên một hình ảnh hoặc video. Thay thế đường dẫn tệp trong mã bằng đường dẫn đến tệp hình ảnh hoặc video của bạn:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Hình ảnh sẽ hiển thị với đối tượng được phát hiện được đánh dấu rõ ràng dựa trên lời nhắc của bạn. Bạn có thể thay đổi lời nhắc để tìm kiếm các đối tượng khác nhau, chẳng hạn như "vali đỏ", "xe đạp" hoặc "ngựa vằn", tùy thuộc vào những gì bạn đang tìm kiếm.

Hình 3. Một ví dụ về việc sử dụng YOLOE để detect các đối tượng cụ thể bằng cách sử dụng lời nhắc văn bản.

Tương tự như vậy, bạn có thể sử dụng hình ảnh để nhắc YOLOE với Ultralytics Python gói. Ở chế độ nhắc nhở trực quan, mô hình sử dụng hình ảnh để tìm các vật thể có hình dạng tương tự trong một cảnh khác. Điều này đặc biệt hữu ích cho các đối tượng khó mô tả hoặc không có nhãn rõ ràng. 

Để tìm hiểu mã này chi tiết hơn, bạn có thể tham khảo tài liệu Ultralytics .

Phát hiện đối tượng tổng quát bằng YOLOE

Trong một số trường hợp, bạn có thể không biết chính xác mình cần tìm kiếm gì hoặc không tìm kiếm một đối tượng cụ thể nào. Đó là lúc chế độ không cần prompt trở nên hữu ích. 

Với tùy chọn này, bạn không cần nhập mô tả hoặc cung cấp hình ảnh ví dụ. YOLOE chỉ cần tự phân tích hình ảnh và phát hiện mọi thứ mà nó có thể nhận ra, chẳng hạn như người, động vật, đồ nội thất hoặc đồ vật hàng ngày.

Đây là một cách hữu ích để khám phá một khung cảnh mà không cần đưa ra bất kỳ hướng dẫn cụ thể nào cho mô hình. Cho dù bạn đang quét một căn phòng đông người hay xem lại cảnh quay với nhiều hoạt động, chế độ không cần nhắc (prompt-free mode) sẽ cho bạn cái nhìn nhanh về những gì có trong một hình ảnh. 

Bạn có thể sử dụng đoạn mã sau để chạy YOLOE ở chế độ không cần nhắc. Đầu tiên, mô hình được tải, sau đó nó xử lý hình ảnh và tự động phát hiện các đối tượng trong đó. Cuối cùng, kết quả được hiển thị và các đối tượng được phát hiện được làm nổi bật. 

Hãy nhớ thay thế đường dẫn tệp bằng đường dẫn thực tế đến hình ảnh của bạn.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Hình ảnh hiển thị bên dưới là một ví dụ về những gì YOLOE có thể detect ở chế độ không cần nhắc nhở.

Hình 4. Sử dụng YOLOE ở chế độ không cần nhắc lệnh (prompt-free).

Các ứng dụng thời gian thực của YOLOE

Khả năng phản hồi cả lời nhắc bằng văn bản và hình ảnh của YOLOE khiến nó trở thành một công cụ đáng tin cậy cho các ứng dụng thời gian thực. Tính linh hoạt của nó đặc biệt hữu ích trong môi trường nhịp độ nhanh, nơi thời gian và độ chính xác là rất quan trọng. 

Hãy cùng khám phá một số ví dụ thực tế về cách YOLOE có thể được sử dụng.

Cải thiện việc xử lý hành lý: Phát hiện hành lý theo thời gian thực

Trong sân bay bận rộn, việc định vị hành lý cụ thể có thể là một thách thức, đặc biệt là khi xử lý các túi bị thất lạc. YOLOE có thể hợp lý hóa quy trình này bằng cách giúp quét video trực tiếp và nhanh chóng xác định các mặt hàng dựa trên các lời nhắc đơn giản như "túi màu đỏ". 

Nếu một túi bị thiếu hoặc thất lạc, nhân viên có thể dễ dàng thay đổi lời nhắc để tìm kiếm một vật phẩm khác, chẳng hạn như “vali đen”. Khả năng thích ứng ngay lập tức này có thể giúp nhân viên sân bay nhanh chóng xác định vị trí hành lý phù hợp mà không cần xem xét hàng giờ cảnh quay hoặc đào tạo lại mô hình, giúp việc xử lý hành lý và giải quyết các vấn đề về hành lý bị thiếu nhanh hơn và hiệu quả hơn nhiều.

Giám sát không gian công cộng với YOLOE

Các cảnh quay giám sát ở những nơi công cộng, chẳng hạn như chợ và quán cà phê đông đúc, thường bao gồm nhiều người, đồ vật và hoạt động thay đổi trong suốt cả ngày. YOLOE có thể phân tích các cảnh quay này trong thời gian thực bằng chế độ không cần nhắc, tự động phát hiện các vật phẩm như túi xách, bàn hoặc xe đạp mà không cần hướng dẫn cụ thể.

Hình 5. YOLOE có thể detect nhiều đồ vật khác nhau trong một không gian công cộng đông đúc.

Điều này đặc biệt hữu ích cho các nhóm an ninh để phát hiện các vật phẩm không được giám sát hoặc track chuyển động của đám đông. Khả năng của YOLOE detect nhiều đối tượng cùng một lúc giúp quản lý không gian công cộng dễ dàng hơn trong các sự kiện hoặc thời gian bận rộn, giúp các nhóm luôn cập nhật thông tin và phản hồi nhanh chóng.

Ưu và nhược điểm của YOLOE

Dưới đây là một số lợi ích chính của việc sử dụng YOLOE cho các ứng dụng thị giác máy tính:

  • Hiệu suất theo thời gian thực: YOLOE được tối ưu hóa để xử lý nhanh chóng và hiệu quả, cho phép phát hiện theo thời gian thực, ngay cả trong các môi trường động như luồng video trực tiếp hoặc không gian công cộng bận rộn.
  • Khả năng mở rộng: YOLOE có khả năng mở rộng và hoạt động tốt cho nhiều ứng dụng khác nhau, từ an ninh và giám sát đến bán lẻ, chăm sóc sức khỏe và xe tự hành.
  • Dễ sử dụng : Vì YOLOE được hỗ trợ bởi Ultralytics Python gói này dễ dàng tích hợp vào các dự án thị giác máy tính hiện có của bạn.

Tuy nhiên, có một vài hạn chế cần lưu ý khi sử dụng YOLOE. Dưới đây là một vài yếu tố cần xem xét:

  • Yêu cầu đủ dữ liệu huấn luyện: Mặc dù YOLOE hỗ trợ phát hiện zero-shot, nhưng hiệu suất của nó trên các đối tượng chưa thấy phụ thuộc vào mức độ khái quát hóa từ dữ liệu huấn luyện của nó. Trong một số trường hợp, nó có thể cần thêm dữ liệu hoặc tinh chỉnh để hoạt động tốt trong các tác vụ chuyên biệt cao.
  • Nhạy cảm với chất lượng đầu vào : Độ chính xác của mô hình có thể bị ảnh hưởng bởi hình ảnh hoặc video chất lượng thấp. Đầu vào mờ hoặc thiếu sáng có thể làm giảm khả năng mô hình hóa chính xác. detect đối tượng, do đó đầu vào chất lượng cao rất quan trọng để đạt hiệu suất tối ưu.

Những điều cần nhớ

YOLOE mang lại sự linh hoạt hơn cho thị giác máy tính bằng cách cho phép người dùng hướng dẫn phát hiện bằng văn bản hoặc hình ảnh. Nó hoạt động tốt trong các tình huống thực tế, nơi cảnh thay đổi nhanh chóng và việc đào tạo lại không phải là một lựa chọn.

Từ xử lý hành lý đến giám sát không gian công cộng, YOLOE dễ dàng thích ứng với các tác vụ mới. Khi AI trở nên dễ tiếp cận hơn, các mô hình như YOLOE đang giúp nhiều ngành công nghiệp sử dụng công nghệ thị giác một cách thiết thực và hiệu quả.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu thêm về các cải tiến AI. Khám phá những tiến bộ mới nhất trong các lĩnh vực như AI trong bán lẻthị giác máy tính trong chăm sóc sức khỏe trên các trang giải pháp của chúng tôi. Xem các tùy chọn cấp phép của chúng tôi và bắt đầu với thị giác máy tính ngay hôm nay!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí