Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

YOLOE là gì? Đưa các mô hình computer vision tiến xa hơn

Abirami Vina

5 phút đọc

8 tháng 5, 2025

Tìm hiểu cách YOLOE cho phép bạn tìm đối tượng bằng một lời nhắc hoặc ảnh đơn giản. Nó cho phép thị giác máy tính thông minh hơn, nhanh hơn mà không cần đào tạo lại hoặc tinh chỉnh mô hình.

Phát hiện đối tượng là một nhiệm vụ quan trọng của computer vision, trong đó mục tiêu là xác định và định vị các đối tượng trong ảnh hoặc video. Đây là một phần quan trọng của computer vision, một lĩnh vực của trí tuệ nhân tạo (AI) cho phép máy móc hiểu và diễn giải dữ liệu trực quan. Ví dụ: object detection có thể giúp xác định một chiếc ô tô trong ảnh hoặc phát hiện một người trong một video.

Một trong những dòng mô hình nổi tiếng nhất hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng là dòng mô hình YOLO (You Only Look Once). Được thiết kế để có tốc độ và độ chính xác, các mô hình YOLO đã liên tục được cải thiện theo thời gian. Ví dụ: một trong những phiên bản mới nhất, Ultralytics YOLO11, hoạt động tốt trong các tình huống thực tế, cung cấp kết quả chính xác ngay cả trong môi trường phức tạp hơn.

Thúc đẩy sự tiến bộ này hơn nữa, một mô hình mới có tên là YOLOE nhằm mục đích mở rộng khả năng của các mô hình YOLO. Không giống như các mô hình truyền thống yêu cầu đào tạo lại để nhận dạng các đối tượng mới, YOLOE có thể tuân theo các văn bản hoặc hình ảnh đơn giản để phát hiện các đối tượng mà nó chưa từng thấy trước đây, giúp nó thích ứng tốt hơn với môi trường thay đổi.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn điều gì làm cho YOLOE trở nên độc đáo, so sánh nó với các mô hình YOLO trước đây và cách bạn có thể bắt đầu sử dụng nó ngay hôm nay. Hãy cùng bắt đầu!

Tổng quan về YOLOE

YOLOE là một mô hình thị giác máy tính đưa việc phát hiện đối tượng tiến thêm một bước nữa. Nó được giới thiệu vào tháng 3 năm 2025 bởi các nhà nghiên cứu tại Đại học Thanh Hoa. Điều làm nên sự khác biệt của YOLOE so với các mô hình truyền thống là việc sử dụng tính năng phát hiện từ vựng mở. 

Trong khi hầu hết các mô hình được huấn luyện để nhận dạng một danh sách đối tượng cố định, YOLOE cho phép bạn chỉ định những gì cần tìm bằng cách sử dụng một mô tả ngắn gọn hoặc một hình ảnh ví dụ. Ví dụ: nếu bạn đang tìm kiếm một chiếc “ba lô màu xanh lá cây”, bạn có thể nhập mô tả đó hoặc cho mô hình xem ảnh, và YOLOE sẽ định vị nó trong khung cảnh.

Ngoài ra, ngay cả khi không có bất kỳ prompt nào, YOLOE có thể tự phát hiện nhiều đối tượng hàng ngày. Khả năng nhận dạng các đối tượng mà nó chưa từng thấy trước đây này được gọi là phát hiện zero-shot. Nó đặc biệt hữu ích trong môi trường động, nơi tác vụ hoặc đối tượng quan tâm có thể thay đổi bất ngờ.

Hình 1. Cái nhìn về khả năng của YOLOE.

Các tính năng chính của YOLOE

YOLOE hỗ trợ một loạt các tính năng được thiết kế để nâng cao hiệu suất của nó trong các ứng dụng thực tế. Với khả năng xử lý cả đầu vào có cấu trúc và không có cấu trúc, YOLOE mở ra những khả năng mới cho việc phát hiện và phân đoạn đối tượng. 

Dưới đây là một số tính năng chính mà mô hình này mang lại:

  • Phát hiện dựa trên Prompt: YOLOE có thể tìm kiếm các đối tượng dựa trên một prompt văn bản ngắn hoặc một hình ảnh ví dụ. Điều này có nghĩa là bạn không cần phải huấn luyện lại mô hình mỗi khi tác vụ của bạn thay đổi; chỉ cần mô tả hoặc cho mô hình biết những gì bạn đang tìm kiếm.
  • Phân vùng thể hiện (Instance segmentation): Ngoài việc vẽ các hộp giới hạn xung quanh các đối tượng, YOLOE có thể phác thảo hình dạng chính xác của chúng bằng cách sử dụng phân vùng thể hiện. Điều này đặc biệt hữu ích khi các đối tượng bị chồng chéo hoặc khi bạn cần biết ranh giới chính xác của một đối tượng.
  • Nhận dạng đối tượng không cần Prompt: YOLOE có thể nhận dạng các đối tượng ngay cả khi không có hướng dẫn cụ thể. Nó sử dụng một tập hợp các mô tả đã được học trước để nhanh chóng xác định các đối tượng, làm cho quá trình nhanh hơn và hiệu quả hơn.

So sánh YOLOE với các mô hình YOLO khác

Bây giờ chúng ta đã hiểu rõ hơn về YOLOE là gì, hãy xem xét một số mô hình tương tự trong họ YOLO. 

Khi computer vision đã tiến bộ, các mô hình YOLO cũng vậy. Ví dụ: Ultralytics YOLOv8 đã mang lại sự hỗ trợ cho các tác vụ mới như phân đoạn và phân loại, trong khi các phiên bản sau này, như Ultralytics YOLO11, đã tập trung vào việc cải thiện độ chính xác và hiệu suất cho một loạt các tác vụ rộng hơn.

Ngoài ra, YOLO-World đã được phát hành vào tháng 1 năm 2024 và giới thiệu khả năng sử dụng các prompt bằng văn bản, cho phép người dùng mô tả các đối tượng họ muốn tìm. Mặc dù YOLO-World là một lựa chọn tuyệt vời cho zero-shot detection (phát hiện không cần huấn luyện), nhưng nó thiếu các tính năng như instance segmentation (phân vùng thể hiện) và hỗ trợ visual prompt. 

YOLOE xây dựng dựa trên YOLO-World bằng cách thêm các khả năng này, cải thiện tính linh hoạt và hiệu suất, đồng thời cung cấp một công cụ có tác động hơn cho các ứng dụng thị giác máy tính thực tế.

Hình 2. YOLO-World và YOLOE đều hỗ trợ zero-shot detection (phát hiện đối tượng mà không cần huấn luyện trước).

Sử dụng YOLOE với gói Ultralytics Python

Cho dù bạn muốn phát hiện các đối tượng cụ thể hay khám phá mọi thứ trong một hình ảnh, việc bắt đầu với YOLOE rất đơn giản. Mô hình này được hỗ trợ bởi gói Ultralytics Python, giúp bạn dễ dàng tích hợp vào các dự án của mình. Tiếp theo, hãy cùng xem cách sử dụng nó.

Cài đặt gói Ultralytics

Bước đầu tiên là cài đặt gói Ultralytics Python bằng trình quản lý gói như ‘pip.’ Bạn có thể thực hiện việc này bằng cách chạy lệnh “pip install ultralytics” trong terminal hoặc dấu nhắc lệnh của bạn.

Sau khi gói được cài đặt, bạn sẽ có mọi thứ cần thiết để tải mô hình, đưa ra dự đoán và thử nghiệm với các chế độ phát hiện khác nhau. Nếu bạn gặp bất kỳ sự cố nào trong quá trình cài đặt, tài liệu chính thức của Ultralytics cung cấp một phần khắc phục sự cố hữu ích. 

Có một vài cách khác nhau để sử dụng YOLOE để chạy dự đoán. Chạy dự đoán có nghĩa là sử dụng mô hình đã huấn luyện để xác định và định vị các đối tượng trong hình ảnh hoặc video. Các phương pháp khác nhau này cho phép bạn tùy chỉnh cách bạn tương tác với mô hình dựa trên nhu cầu cụ thể của bạn.

Hãy thảo luận về từng phương pháp này, lần lượt từng phương pháp một.

Phát hiện các đối tượng cụ thể bằng văn bản hoặc hình ảnh

YOLOE có thể phát hiện các đối tượng dựa trên một mô tả văn bản ngắn. Ví dụ: nếu bạn đang tìm kiếm một con ngựa đang di chuyển, bạn có thể sử dụng một lời nhắc như "con ngựa đang đi bộ".

Để bắt đầu, trước tiên, hãy tải mô hình YOLOE được đào tạo trước và đặt lời nhắc của bạn (mô tả những gì bạn muốn mô hình tìm kiếm) như được hiển thị trong đoạn mã bên dưới.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Sau khi mô hình và lời nhắc của bạn được đặt, bạn có thể chạy mô hình trên một hình ảnh hoặc video. Thay thế đường dẫn tệp trong mã bằng đường dẫn đến tệp hình ảnh hoặc video của bạn:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Hình ảnh sẽ hiển thị với đối tượng được phát hiện được đánh dấu rõ ràng dựa trên lời nhắc của bạn. Bạn có thể thay đổi lời nhắc để tìm kiếm các đối tượng khác nhau, chẳng hạn như "vali đỏ", "xe đạp" hoặc "ngựa vằn", tùy thuộc vào những gì bạn đang tìm kiếm.

Hình 3. Một ví dụ về sử dụng YOLOE để phát hiện các đối tượng cụ thể bằng cách sử dụng một dấu nhắc văn bản.

Tương tự, bạn có thể sử dụng hình ảnh để nhắc YOLOE bằng gói Ultralytics Python. Ở chế độ nhắc trực quan, mô hình sử dụng hình ảnh để tìm các mục trông tương tự trong một cảnh khác. Điều này đặc biệt hữu ích cho các đối tượng khó mô tả hoặc thiếu nhãn rõ ràng. 

Để khám phá mã này chi tiết hơn, bạn có thể xem tài liệu Ultralytics.

Phát hiện đối tượng tổng quát bằng YOLOE

Trong một số trường hợp, bạn có thể không biết chính xác mình cần tìm kiếm gì hoặc không tìm kiếm một đối tượng cụ thể nào. Đó là lúc chế độ không cần prompt trở nên hữu ích. 

Với tùy chọn này, bạn không cần nhập mô tả hoặc cung cấp hình ảnh ví dụ. YOLOE chỉ cần tự phân tích hình ảnh và phát hiện mọi thứ mà nó có thể nhận ra, chẳng hạn như người, động vật, đồ nội thất hoặc đồ vật hàng ngày.

Đây là một cách hữu ích để khám phá một khung cảnh mà không cần đưa ra bất kỳ hướng dẫn cụ thể nào cho mô hình. Cho dù bạn đang quét một căn phòng đông người hay xem lại cảnh quay với nhiều hoạt động, chế độ không cần nhắc (prompt-free mode) sẽ cho bạn cái nhìn nhanh về những gì có trong một hình ảnh. 

Bạn có thể sử dụng đoạn mã sau để chạy YOLOE ở chế độ không cần nhắc. Đầu tiên, mô hình được tải, sau đó nó xử lý hình ảnh và tự động phát hiện các đối tượng trong đó. Cuối cùng, kết quả được hiển thị và các đối tượng được phát hiện được làm nổi bật. 

Hãy nhớ thay thế đường dẫn tệp bằng đường dẫn thực tế đến hình ảnh của bạn.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

Hình ảnh hiển thị bên dưới là một ví dụ về những gì YOLOE có thể phát hiện ở chế độ không cần nhắc.

Hình 4. Sử dụng YOLOE ở chế độ không cần nhắc lệnh (prompt-free).

Các ứng dụng thời gian thực của YOLOE

Khả năng phản hồi cả lời nhắc bằng văn bản và hình ảnh của YOLOE khiến nó trở thành một công cụ đáng tin cậy cho các ứng dụng thời gian thực. Tính linh hoạt của nó đặc biệt hữu ích trong môi trường nhịp độ nhanh, nơi thời gian và độ chính xác là rất quan trọng. 

Hãy cùng khám phá một số ví dụ thực tế về cách YOLOE có thể được sử dụng.

Cải thiện việc xử lý hành lý: Phát hiện hành lý theo thời gian thực

Trong sân bay bận rộn, việc định vị hành lý cụ thể có thể là một thách thức, đặc biệt là khi xử lý các túi bị thất lạc. YOLOE có thể hợp lý hóa quy trình này bằng cách giúp quét video trực tiếp và nhanh chóng xác định các mặt hàng dựa trên các lời nhắc đơn giản như "túi màu đỏ". 

Nếu một túi bị thiếu hoặc thất lạc, nhân viên có thể dễ dàng thay đổi lời nhắc để tìm kiếm một vật phẩm khác, chẳng hạn như “vali đen”. Khả năng thích ứng ngay lập tức này có thể giúp nhân viên sân bay nhanh chóng xác định vị trí hành lý phù hợp mà không cần xem xét hàng giờ cảnh quay hoặc đào tạo lại mô hình, giúp việc xử lý hành lý và giải quyết các vấn đề về hành lý bị thiếu nhanh hơn và hiệu quả hơn nhiều.

Giám sát không gian công cộng với YOLOE

Các cảnh quay giám sát ở những nơi công cộng, chẳng hạn như chợ và quán cà phê đông đúc, thường bao gồm nhiều người, đồ vật và hoạt động thay đổi trong suốt cả ngày. YOLOE có thể phân tích các cảnh quay này trong thời gian thực bằng chế độ không cần nhắc, tự động phát hiện các vật phẩm như túi xách, bàn hoặc xe đạp mà không cần hướng dẫn cụ thể.

Hình 5. YOLOE có thể phát hiện nhiều đối tượng khác nhau ở một không gian công cộng đông đúc.

Điều này đặc biệt hữu ích cho các đội an ninh để phát hiện các vật phẩm bị bỏ quên hoặc theo dõi sự di chuyển của đám đông. Khả năng phát hiện nhiều đối tượng cùng lúc của YOLOE giúp quản lý các không gian công cộng dễ dàng hơn trong các sự kiện hoặc thời gian cao điểm, giúp các đội luôn nắm bắt được thông tin và phản ứng kịp thời.

Ưu và nhược điểm của YOLOE

Dưới đây là một số lợi ích chính của việc sử dụng YOLOE cho các ứng dụng thị giác máy tính:

  • Hiệu suất theo thời gian thực: YOLOE được tối ưu hóa để xử lý nhanh chóng và hiệu quả, cho phép phát hiện theo thời gian thực, ngay cả trong các môi trường động như luồng video trực tiếp hoặc không gian công cộng bận rộn.
  • Khả năng mở rộng: YOLOE có khả năng mở rộng và hoạt động tốt cho nhiều ứng dụng khác nhau, từ an ninh và giám sát đến bán lẻ, chăm sóc sức khỏe và xe tự hành.
  • Dễ sử dụng: Vì YOLOE được hỗ trợ bởi gói Ultralytics Python, nên rất dễ tích hợp vào các dự án thị giác máy tính hiện có của bạn.

Tuy nhiên, có một vài hạn chế cần lưu ý khi sử dụng YOLOE. Dưới đây là một vài yếu tố cần xem xét:

  • Yêu cầu đủ dữ liệu huấn luyện: Mặc dù YOLOE hỗ trợ phát hiện zero-shot, nhưng hiệu suất của nó trên các đối tượng chưa thấy phụ thuộc vào mức độ khái quát hóa từ dữ liệu huấn luyện của nó. Trong một số trường hợp, nó có thể cần thêm dữ liệu hoặc tinh chỉnh để hoạt động tốt trong các tác vụ chuyên biệt cao.
  • Nhạy cảm với chất lượng đầu vào: Độ chính xác của mô hình có thể bị ảnh hưởng bởi hình ảnh hoặc video chất lượng thấp. Đầu vào bị mờ hoặc thiếu sáng có thể làm giảm khả năng phát hiện đối tượng chính xác của mô hình, vì vậy đầu vào chất lượng cao rất quan trọng để có hiệu suất tối ưu.

Những điều cần nhớ

YOLOE mang lại sự linh hoạt hơn cho thị giác máy tính bằng cách cho phép người dùng hướng dẫn phát hiện bằng văn bản hoặc hình ảnh. Nó hoạt động tốt trong các tình huống thực tế, nơi cảnh thay đổi nhanh chóng và việc đào tạo lại không phải là một lựa chọn.

Từ xử lý hành lý đến giám sát không gian công cộng, YOLOE dễ dàng thích ứng với các tác vụ mới. Khi AI trở nên dễ tiếp cận hơn, các mô hình như YOLOE đang giúp nhiều ngành công nghiệp sử dụng công nghệ thị giác một cách thiết thực và hiệu quả.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu thêm về các cải tiến AI. Khám phá những tiến bộ mới nhất trong các lĩnh vực như AI trong bán lẻthị giác máy tính trong chăm sóc sức khỏe trên các trang giải pháp của chúng tôi. Xem các tùy chọn cấp phép của chúng tôi và bắt đầu với thị giác máy tính ngay hôm nay!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard