YOLOE là gì? Đưa các mô hình computer vision đi xa hơn
Tìm hiểu cách YOLOE cho phép bạn tìm kiếm đối tượng bằng cách sử dụng một prompt hoặc ảnh đơn giản. Công nghệ này hỗ trợ computer vision thông minh hơn, nhanh hơn mà không cần huấn luyện lại hoặc fine-tuning mô hình.

Phát hiện đối tượng là một tác vụ thị giác máy tính then chốt, nơi mục tiêu là xác định và định vị các đối tượng trong hình ảnh hoặc video. Đây là một phần quan trọng của thị giác máy tính, một lĩnh vực của trí tuệ nhân tạo (AI) cho phép máy móc hiểu và diễn giải dữ liệu thị giác. Ví dụ, phát hiện đối tượng có thể giúp xác định một chiếc xe trong ảnh hoặc phát hiện một người trong nguồn cấp dữ liệu video.
Một trong những dòng model nổi tiếng nhất hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng là dòng model YOLO (You Only Look Once). Được thiết kế để tối ưu tốc độ và độ chính xác, các model YOLO đã liên tục cải tiến theo thời gian. Ví dụ, một trong những phiên bản mới nhất, Ultralytics YOLO11, hoạt động hiệu quả trong các tình huống thực tế, mang lại kết quả chính xác ngay cả trong những môi trường phức tạp hơn.
Để thúc đẩy tiến bộ này hơn nữa, một model mới có tên YOLOE nhằm mở rộng khả năng của các model YOLO. Không giống như các model truyền thống yêu cầu huấn luyện lại để nhận diện các đối tượng mới, YOLOE có thể làm theo các câu lệnh văn bản hoặc hình ảnh đơn giản để phát hiện các đối tượng mà nó chưa từng thấy trước đây, giúp nó linh hoạt hơn nhiều trong các môi trường thay đổi.
Trong bài viết này, chúng ta sẽ xem xét kỹ hơn điều gì làm cho YOLOE trở nên độc đáo, cách nó so sánh với các model YOLO trước đây và cách bạn có thể bắt đầu sử dụng nó ngay hôm nay. Hãy cùng bắt đầu!
Link to this sectionTổng quan về YOLOE#
YOLOE là một model thị giác máy tính đưa việc phát hiện đối tượng tiến thêm một bước. Nó được giới thiệu vào tháng 3 năm 2025 bởi các nhà nghiên cứu tại Đại học Thanh Hoa. Điều làm nên sự khác biệt của YOLOE so với các model truyền thống là việc sử dụng kỹ thuật phát hiện theo từ vựng mở (open-vocabulary detection).
Trong khi hầu hết các model được huấn luyện để nhận diện một danh sách đối tượng cố định, YOLOE cho phép bạn chỉ định những gì cần tìm bằng cách sử dụng một mô tả ngắn hoặc một hình ảnh ví dụ. Ví dụ: nếu bạn đang tìm kiếm một “chiếc ba lô màu xanh lá cây”, bạn có thể nhập mô tả đó hoặc cho model xem một bức ảnh, và YOLOE sẽ định vị nó trong cảnh.
Ngoài ra, ngay cả khi không có bất kỳ câu lệnh nào, YOLOE có thể tự mình phát hiện nhiều đối tượng thông thường. Khả năng nhận diện các đối tượng mà nó chưa từng thấy trước đây này được gọi là zero-shot detection. Nó đặc biệt hữu ích trong các môi trường năng động, nơi tác vụ hoặc các đối tượng quan tâm có thể thay đổi bất ngờ.

Hình 1. Một cái nhìn về khả năng của YOLOE.
Link to this sectionCác tính năng chính của YOLOE#
YOLOE hỗ trợ hàng loạt tính năng được thiết kế để nâng cao hiệu suất trong các ứng dụng thực tế. Với khả năng xử lý cả đầu vào có cấu trúc và không có cấu trúc, YOLOE mở ra những khả năng mới cho việc phát hiện và phân đoạn đối tượng.
Dưới đây là một số tính năng chính mà model mang lại:
- Phát hiện dựa trên câu lệnh (Prompt-based detection): YOLOE có thể tìm kiếm đối tượng dựa trên một câu lệnh văn bản ngắn hoặc một hình ảnh ví dụ. Điều này có nghĩa là bạn không cần phải huấn luyện lại model mỗi khi tác vụ của bạn thay đổi; chỉ cần mô tả hoặc cho model thấy những gì bạn đang tìm kiếm.
- Phân đoạn thực thể (Instance segmentation): Ngoài việc vẽ các hộp bao (bounding boxes) xung quanh đối tượng, YOLOE có thể phác thảo hình dạng chính xác của chúng bằng cách sử dụng phân đoạn thực thể. Điều này đặc biệt hữu ích khi các đối tượng chồng chéo lên nhau hoặc khi bạn cần biết ranh giới chính xác của một đối tượng.
- Nhận diện đối tượng không cần câu lệnh (Prompt-free object recognition): YOLOE có thể nhận diện đối tượng ngay cả khi không có hướng dẫn cụ thể. Nó sử dụng một tập hợp các mô tả đã học trước để xác định nhanh chóng các đối tượng, giúp quy trình trở nên nhanh hơn và hiệu quả hơn.
Link to this sectionSo sánh YOLOE với các model YOLO khác#
Giờ đây khi chúng ta đã hiểu rõ hơn về YOLOE, hãy cùng xem xét một số model trong gia đình YOLO có đặc điểm tương tự.
Khi thị giác máy tính phát triển, các model YOLO cũng vậy. Ví dụ, Ultralytics YOLOv8 mang đến hỗ trợ cho các tác vụ mới như phân đoạn và phân loại, trong khi các phiên bản sau đó, như Ultralytics YOLO11, tập trung vào việc cải thiện độ chính xác và hiệu suất cho nhiều tác vụ hơn.
Ngoài ra, YOLO-World được ra mắt vào tháng 1 năm 2024 và giới thiệu khả năng sử dụng các câu lệnh bằng văn bản, cho phép người dùng mô tả các đối tượng họ muốn tìm. Mặc dù YOLO-World là một lựa chọn tuyệt vời cho zero-shot detection, nó còn thiếu các tính năng như phân đoạn thực thể và hỗ trợ câu lệnh bằng hình ảnh.
YOLOE được xây dựng dựa trên YOLO-World bằng cách thêm vào các khả năng này, cải thiện tính linh hoạt và hiệu suất, đồng thời cung cấp một công cụ mạnh mẽ hơn cho các ứng dụng thị giác máy tính thực tế.

Hình 2. YOLO-World và YOLOE đều hỗ trợ zero-shot detection.
Link to this sectionSử dụng YOLOE với gói Ultralytics Python#
Cho dù bạn muốn phát hiện các đối tượng cụ thể hay khám phá mọi thứ trong một hình ảnh, việc bắt đầu với YOLOE rất đơn giản. Model này được hỗ trợ bởi gói Ultralytics Python, giúp bạn dễ dàng tích hợp vào các dự án của mình. Tiếp theo, hãy cùng tìm hiểu cách sử dụng nó.
Link to this sectionCài đặt gói Ultralytics#
Bước đầu tiên là cài đặt gói Ultralytics Python bằng cách sử dụng trình quản lý gói như ‘pip.’ Bạn có thể thực hiện việc này bằng cách chạy lệnh “pip install ultralytics” trong terminal hoặc command prompt của bạn.
Sau khi gói được cài đặt, bạn sẽ có mọi thứ cần thiết để tải model, đưa ra dự đoán và thử nghiệm với các chế độ phát hiện khác nhau. Nếu bạn gặp bất kỳ vấn đề nào trong quá trình cài đặt, tài liệu chính thức của Ultralytics cung cấp phần khắc phục sự cố rất hữu ích.
Có một vài cách khác nhau để sử dụng YOLOE nhằm chạy dự đoán. Chạy dự đoán nghĩa là sử dụng model đã được huấn luyện để xác định và định vị các đối tượng trong hình ảnh hoặc video. Các phương pháp khác nhau này cho phép bạn tùy chỉnh cách bạn tương tác với model dựa trên nhu cầu cụ thể của mình.
Hãy cùng thảo luận từng phương pháp một.
Link to this sectionPhát hiện đối tượng cụ thể bằng câu lệnh văn bản hoặc hình ảnh#
YOLOE có thể phát hiện đối tượng dựa trên một mô tả văn bản ngắn. Ví dụ, nếu bạn đang tìm kiếm một con ngựa đang di chuyển, bạn có thể sử dụng một câu lệnh như "horse walking."
Để bắt đầu, trước tiên, hãy tải model YOLOE đã được huấn luyện sẵn và đặt câu lệnh của bạn (mô tả về những gì bạn muốn model tìm kiếm) như được hiển thị trong đoạn mã bên dưới.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Khi model và câu lệnh của bạn đã được thiết lập, bạn có thể chạy model trên hình ảnh hoặc video. Thay thế đường dẫn tệp trong mã bằng đường dẫn đến tệp hình ảnh hoặc video của bạn:
results = model.predict("path/to/your/image.jpg")
results[0].show()Việc này sẽ hiển thị hình ảnh với đối tượng được phát hiện được đánh dấu rõ ràng dựa trên câu lệnh của bạn. Bạn có thể thay đổi câu lệnh để tìm kiếm các đối tượng khác nhau, chẳng hạn như "red suitcase," "bicycle," hoặc "zebra," tùy thuộc vào những gì bạn đang tìm kiếm.

Hình 3. Một ví dụ về việc sử dụng YOLOE để phát hiện các đối tượng cụ thể bằng câu lệnh văn bản.
Tương tự, bạn có thể sử dụng hình ảnh để đặt câu lệnh cho YOLOE bằng gói Ultralytics Python. Ở chế độ câu lệnh bằng hình ảnh (visual prompt mode), model sử dụng hình ảnh đó để tìm các mục trông tương tự trong một cảnh khác. Điều này đặc biệt hữu ích đối với các đối tượng khó mô tả hoặc thiếu các nhãn rõ ràng.
Để tìm hiểu kỹ hơn về mã nguồn cho việc này, bạn có thể xem tài liệu của Ultralytics.
Link to this sectionPhát hiện đối tượng chung bằng YOLOE#
Trong một số trường hợp, bạn có thể không biết chính xác mình cần tìm kiếm gì, hoặc bạn không tìm kiếm một đối tượng cụ thể nào. Đó là lúc chế độ không cần câu lệnh (prompt-free mode) trở nên hữu ích.
Với tùy chọn này, bạn không cần phải nhập mô tả hoặc cung cấp hình ảnh ví dụ. YOLOE đơn giản là phân tích các hình ảnh và tự mình phát hiện mọi thứ mà nó có thể nhận diện, chẳng hạn như con người, động vật, đồ nội thất hoặc các vật dụng hàng ngày.
Đây là một cách hữu ích để khám phá một cảnh quay mà không cần đưa cho model bất kỳ hướng dẫn cụ thể nào. Cho dù bạn đang quét một căn phòng đông đúc hay xem lại cảnh quay với nhiều hoạt động, chế độ không cần câu lệnh sẽ cho bạn cái nhìn nhanh về những gì đang có trong hình ảnh.
Bạn có thể sử dụng đoạn mã sau để chạy YOLOE ở chế độ không cần câu lệnh. Trước tiên, model được tải, sau đó nó xử lý hình ảnh và tự động phát hiện các đối tượng trong đó. Cuối cùng, kết quả được hiển thị và các đối tượng được phát hiện sẽ được làm nổi bật.
Hãy chắc chắn thay thế đường dẫn tệp bằng đường dẫn thực tế đến hình ảnh của bạn.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()Hình ảnh được hiển thị bên dưới là một ví dụ về những gì YOLOE có thể phát hiện ở chế độ không cần câu lệnh.

Hình 4. Sử dụng YOLOE ở chế độ không cần câu lệnh.
Link to this sectionCác ứng dụng thời gian thực của YOLOE#
Khả năng phản hồi cả câu lệnh văn bản và hình ảnh của YOLOE khiến nó trở thành một công cụ đáng tin cậy cho các ứng dụng thời gian thực. Sự linh hoạt của nó đặc biệt hữu ích trong các môi trường có nhịp độ nhanh, nơi thời gian và độ chính xác là yếu tố cần thiết.
Hãy cùng khám phá một số ví dụ thực tế về cách sử dụng YOLOE.
Link to this sectionCải thiện xử lý hành lý: Phát hiện hành lý thời gian thực#
Tại các sân bay bận rộn, việc xác định vị trí hành lý cụ thể có thể là một thách thức, đặc biệt là khi xử lý hành lý bị thất lạc. YOLOE có thể tinh giản quy trình này bằng cách hỗ trợ quét video trực tiếp và nhanh chóng xác định các mục dựa trên các câu lệnh đơn giản như “red bag.”
Nếu một chiếc túi bị thiếu hoặc để nhầm chỗ, nhân viên có thể dễ dàng thay đổi câu lệnh để tìm kiếm một mục khác, chẳng hạn như “black suitcase.” Khả năng thích ứng tức thì này có thể giúp nhân viên sân bay nhanh chóng xác định vị trí hành lý phù hợp mà không cần xem lại hàng giờ đồng hồ cảnh quay hoặc huấn luyện lại model, giúp việc xử lý hành lý và giải quyết các vấn đề về hành lý thất lạc nhanh chóng và hiệu quả hơn nhiều.
Link to this sectionGiám sát không gian công cộng với YOLOE#
Cảnh quay giám sát các không gian công cộng, chẳng hạn như chợ đông đúc và quán cà phê, thường bao gồm sự kết hợp giữa con người, đối tượng và các hoạt động thay đổi suốt cả ngày. YOLOE có thể phân tích những cảnh quay này trong thời gian thực bằng cách sử dụng chế độ không cần câu lệnh, tự động phát hiện các vật dụng như túi xách, bàn ghế hoặc xe đạp mà không cần hướng dẫn cụ thể.

Hình 5. YOLOE có thể phát hiện các đối tượng khác nhau trong một không gian công cộng đông đúc.
Điều này đặc biệt hữu ích cho các nhóm an ninh để phát hiện các vật dụng không có người trông coi hoặc theo dõi chuyển động của đám đông. Khả năng phát hiện nhiều đối tượng cùng lúc của YOLOE giúp việc quản lý không gian công cộng trong các sự kiện hoặc thời điểm bận rộn trở nên dễ dàng hơn, giúp các đội ngũ nắm bắt thông tin và phản ứng kịp thời.
Link to this sectionƯu điểm và nhược điểm của YOLOE#
Dưới đây là một số lợi ích chính của việc sử dụng YOLOE cho các ứng dụng thị giác máy tính:
- Hiệu suất thời gian thực: YOLOE được tối ưu hóa để xử lý nhanh chóng và hiệu quả, cho phép phát hiện trong thời gian thực, ngay cả trong các môi trường năng động như luồng video trực tiếp hoặc các không gian công cộng bận rộn.
- Khả năng mở rộng (Scalability): YOLOE có khả năng mở rộng và hoạt động tốt cho nhiều loại ứng dụng, từ an ninh và giám sát đến bán lẻ, chăm sóc sức khỏe và xe tự hành.
- Dễ sử dụng: Vì YOLOE được hỗ trợ bởi gói Ultralytics Python, việc tích hợp vào các dự án thị giác máy tính hiện có của bạn rất dễ dàng.
Tuy nhiên, có một vài hạn chế cần lưu ý khi sử dụng YOLOE. Dưới đây là một vài yếu tố cần cân nhắc:
- Yêu cầu đủ dữ liệu huấn luyện: Mặc dù YOLOE hỗ trợ zero-shot detection, nhưng hiệu suất của nó trên các đối tượng chưa từng thấy phụ thuộc vào khả năng tổng quát hóa từ dữ liệu huấn luyện. Trong một số trường hợp, nó có thể cần thêm dữ liệu hoặc tinh chỉnh (fine-tuning) để hoạt động tốt trong các tác vụ chuyên biệt cao.
- Nhạy cảm với chất lượng đầu vào: Độ chính xác của model có thể bị ảnh hưởng bởi hình ảnh hoặc video chất lượng thấp. Đầu vào bị mờ hoặc thiếu sáng có thể làm giảm khả năng phát hiện chính xác các đối tượng của model, vì vậy đầu vào chất lượng cao rất quan trọng để đạt hiệu suất tối ưu.
Link to this sectionCác điểm chính cần lưu ý#
YOLOE mang lại sự linh hoạt hơn cho thị giác máy tính bằng cách cho phép người dùng hướng dẫn việc phát hiện bằng các câu lệnh văn bản hoặc hình ảnh. Nó hoạt động tốt trong các tình huống thực tế nơi các cảnh thay đổi nhanh chóng và việc huấn luyện lại không phải là một lựa chọn.
Từ xử lý hành lý đến giám sát không gian công cộng, YOLOE thích ứng với các tác vụ mới một cách dễ dàng. Khi AI trở nên dễ tiếp cận hơn, các model như YOLOE đang giúp nhiều ngành công nghiệp sử dụng công nghệ thị giác theo những cách thiết thực và hiệu quả.
Hãy tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu thêm về các đổi mới AI. Khám phá những tiến bộ mới nhất trong các lĩnh vực như AI trong bán lẻ và thị giác máy tính trong chăm sóc sức khỏe trên các trang giải pháp của chúng tôi. Xem qua các tùy chọn cấp phép của chúng tôi và bắt đầu với thị giác máy tính ngay hôm nay!






