Tìm hiểu về phân đoạn khái niệm có thể gợi ý
Khám phá phân đoạn khái niệm có thể gợi ý (promptable concept segmentation), cách nó khác biệt với các phương pháp truyền thống và cách các model liên quan như YOLOE-26 hỗ trợ khả năng mở rộng từ vựng (open-vocabulary).

AI thị giác đang phát triển nhanh chóng và được sử dụng rộng rãi để phân tích hình ảnh và video trong các môi trường thực tế. Ví dụ, các ứng dụng từ hệ thống quản lý giao thông đến phân tích bán lẻ đang được tích hợp với các model thị giác máy tính.
Trong nhiều ứng dụng này, các model thị giác, chẳng hạn như model phát hiện đối tượng, được huấn luyện để nhận diện một tập hợp các đối tượng được xác định trước, bao gồm phương tiện, con người và thiết bị. Trong quá trình huấn luyện, các model này được hiển thị nhiều ví dụ đã dán nhãn để chúng có thể học cách mỗi đối tượng xuất hiện và cách phân biệt nó với những đối tượng khác trong một cảnh.
Đối với các tác vụ phân đoạn, các model đi xa hơn bằng cách tạo ra các đường viền chính xác ở cấp độ pixel xung quanh các đối tượng này. Điều này cho phép hệ thống hiểu chính xác vị trí của từng đối tượng trong một hình ảnh.
Cách này hoạt động hiệu quả chừng nào hệ thống chỉ cần nhận diện những gì nó đã được huấn luyện. Tuy nhiên, trong các môi trường thực tế, điều đó hiếm khi xảy ra.
Các cảnh quan thị giác thường có tính động. Các đối tượng và khái niệm thị giác mới xuất hiện, điều kiện thay đổi, và người dùng thường muốn phân đoạn các đối tượng không nằm trong thiết lập huấn luyện ban đầu.
Những hạn chế này đặc biệt rõ ràng khi nói đến phân đoạn. Khi AI thị giác tiếp tục phát triển, nhu cầu về các model phân đoạn linh hoạt hơn có thể thích ứng với các khái niệm mới mà không cần huấn luyện lại nhiều lần đang ngày càng tăng. Đó là lý do tại sao phân đoạn khái niệm có thể gợi ý (PCS) đang thu hút sự chú ý.
Thay vì dựa vào một danh sách cố định các danh mục đối tượng, người dùng có thể mô tả những gì họ muốn phân đoạn bằng cách sử dụng văn bản, các gợi ý thị giác hoặc hình ảnh ví dụ. Sau đó, các model này có thể xác định và phân đoạn tất cả các vùng khớp với khái niệm đã mô tả, ngay cả khi khái niệm đó không được bao gồm rõ ràng trong quá trình huấn luyện.
Trong bài viết này, chúng ta sẽ khám phá cách hoạt động của phân đoạn khái niệm có thể gợi ý, cách nó khác biệt so với các phương pháp truyền thống và nơi nó được sử dụng hiện nay.
Link to this sectionPhân đoạn khái niệm có thể gợi ý là gì?#
Trong hầu hết các trường hợp, các model phân đoạn được huấn luyện để nhận diện một danh sách ngắn các loại đối tượng. Điều này hoạt động tốt khi hệ thống AI thị giác chỉ cần phát hiện và phân đoạn một tập hợp đối tượng cụ thể.
Tuy nhiên, trong các ứng dụng thực tế, các cảnh quan thị giác có tính động. Các đối tượng mới xuất hiện, các yêu cầu tác vụ thay đổi và người dùng thường cần phân đoạn các khái niệm không được bao gồm trong tập nhãn ban đầu. Việc hỗ trợ các tình huống này thường có nghĩa là thu thập dữ liệu và chú thích mới chất lượng cao và huấn luyện lại model, điều này làm tăng chi phí và làm chậm quá trình triển khai.
Phân đoạn khái niệm có thể gợi ý giải quyết vấn đề này bằng cách cho phép người dùng nói cho model biết cần tìm gì thay vì chọn từ một danh sách nhãn cố định. Người dùng mô tả đối tượng hoặc ý tưởng họ đang tìm kiếm và model sẽ làm nổi bật tất cả các khu vực khớp trong hình ảnh. Điều này giúp dễ dàng kết nối ý định của người dùng với các pixel thực tế trong hình ảnh hơn rất nhiều.

Hình 1. Một cái nhìn về việc sử dụng các gợi ý khái niệm cho phân đoạn (Nguồn)
Link to this sectionHướng dẫn phân đoạn với các loại gợi ý khác nhau#
Các model hỗ trợ phân đoạn khái niệm có thể gợi ý rất linh hoạt vì chúng có thể nhận các loại đầu vào khác nhau. Nói cách khác, có nhiều hơn một cách để nói cho model biết cần tìm gì, chẳng hạn như mô tả bằng văn bản, gợi ý thị giác hoặc thông qua hình ảnh ví dụ.
Dưới đây là cái nhìn sâu hơn về từng phương pháp:
- Gợi ý bằng văn bản (Text prompts): Các cụm từ ngắn như “xe buýt trường học” hoặc “vùng khối u” có thể được sử dụng để mô tả khái niệm cần phân đoạn. Model diễn giải ý nghĩa của các từ và xác định các vùng khớp.
- Gợi ý thị giác (Visual prompts): Các gợi ý này sử dụng các điểm, hộp hoặc các nét vẽ phác thảo bên trong hình ảnh làm gợi ý. Những dấu hiệu này hướng dẫn nơi cần tìm và giúp định hình ranh giới cuối cùng.
- Hình ảnh mẫu (Image exemplars): Hình ảnh tham chiếu hoặc các phần cắt nhỏ đại diện cho khái niệm quan tâm. Model tìm kiếm các vùng tương đồng về mặt thị giác và phân đoạn chúng dựa trên hình thức thị giác.
Link to this sectionSự khác biệt giữa PCS và phân đoạn truyền thống#
Trước khi đi sâu vào cách hoạt động của phân đoạn khái niệm có thể gợi ý, trước tiên hãy so sánh nó với các phương pháp phân đoạn đối tượng truyền thống khác nhau.
PCS cho phép các model có từ vựng mở (open-vocabulary) và được điều khiển bằng gợi ý (prompt-driven). Nó có thể làm việc với các ý tưởng mới được mô tả thông qua gợi ý, nhưng phân đoạn truyền thống thì không thể. Có một vài loại phương pháp phân đoạn truyền thống khác nhau, mỗi loại đều có những giả định và hạn chế riêng.
Dưới đây là cái nhìn thoáng qua về một số loại phân đoạn truyền thống chính:
- Phân đoạn ngữ nghĩa (Semantic segmentation): Mỗi pixel trong hình ảnh được dán nhãn là một phần của danh mục như đường bộ, tòa nhà hoặc con người. Tất cả các pixel có cùng nhãn được nhóm lại với nhau, vì vậy model không tách biệt các trường hợp đối tượng riêng lẻ.
- Phân đoạn đối tượng (Instance segmentation): Model xác định và phân đoạn các đối tượng riêng lẻ, vì vậy hai người hoặc hai chiếc xe được xử lý như các mục riêng biệt.
- Phân đoạn toàn cảnh (Panoptic segmentation): Kỹ thuật này kết hợp phân đoạn ngữ nghĩa và phân đoạn đối tượng để cung cấp cái nhìn hoàn chỉnh về cảnh quan, bao gồm cả các vùng nền và các đối tượng riêng lẻ.
Tất cả các phương pháp này đều dựa vào một danh sách các danh mục đối tượng được xác định trước. Chúng hoạt động tốt trong phạm vi đó, nhưng chúng không xử lý tốt các khái niệm nằm ngoài phạm vi đó. Khi một đối tượng cụ thể mới cần được phân đoạn, dữ liệu huấn luyện bổ sung và tinh chỉnh model thường là bắt buộc.
PCS hướng tới việc thay đổi điều đó. Thay vì bị khóa vào các danh mục được xác định trước, nó cho phép bạn mô tả những gì bạn muốn phân đoạn trong một hình ảnh tại thời điểm suy luận (inference).
Link to this sectionSự phát triển của các model PCS#
Tiếp theo, hãy cùng xem xét cách các model phân đoạn phát triển theo hướng phân đoạn khái niệm có thể gợi ý.
Một model nền tảng phổ biến đánh dấu một bước chuyển trong phân đoạn là SAM, hay Segment Anything Model. Nó được giới thiệu vào năm 2023. Thay vì dựa vào các danh mục đối tượng được xác định trước, SAM cho phép người dùng hướng dẫn phân đoạn bằng cách sử dụng các gợi ý thị giác đơn giản như điểm hoặc hộp bao quanh (bounding boxes).
Với SAM, người dùng không còn phải chọn nhãn nữa. Họ chỉ cần chỉ ra đối tượng nằm ở đâu và model sẽ tạo mặt nạ (mask) cho nó. Điều này làm cho việc phân đoạn trở nên linh hoạt hơn, nhưng người dùng vẫn cần chỉ cho model biết nơi cần tìm.
SAM 2, ra mắt năm 2024, được xây dựng dựa trên ý tưởng này bằng cách xử lý các cảnh quan phức tạp hơn và mở rộng phân đoạn có thể gợi ý sang video. Nó cải thiện độ bền vững trong các điều kiện ánh sáng, hình dạng đối tượng và chuyển động khác nhau, trong khi vẫn chủ yếu dựa vào các gợi ý thị giác để hướng dẫn phân đoạn.
Model SAM 3 là bước tiến mới nhất trong quá trình phát triển này. Nó được phát hành vào năm ngoái và là một model thống nhất kết hợp hiểu biết thị giác với hướng dẫn bằng ngôn ngữ, cho phép hành vi nhất quán trên các tác vụ phân đoạn hình ảnh và video.
Với SAM 3, người dùng không bị giới hạn trong việc trỏ hoặc vẽ các gợi ý. Thay vào đó, họ có thể mô tả những gì họ muốn phân đoạn bằng văn bản và model sẽ tìm kiếm hình ảnh hoặc khung hình video cho các vùng khớp với mô tả đó.
Việc phân đoạn được hướng dẫn bởi các khái niệm thay vì các danh mục đối tượng cố định, hỗ trợ sử dụng từ vựng mở trên các cảnh quan khác nhau và theo thời gian. Trên thực tế, SAM 3 hoạt động trên một không gian khái niệm lớn, đã được học, dựa trên một bản thể luận (ontology) có nguồn gốc từ các nguồn như Wikidata và được mở rộng thông qua dữ liệu huấn luyện quy mô lớn.

Hình 2. Ví dụ về việc gợi ý SAM 3 và phân đoạn một hình ảnh đơn lẻ (Nguồn)
So với các phiên bản trước đó chủ yếu dựa vào các gợi ý hình học, SAM 3 đại diện cho một bước tiến tới phân đoạn linh hoạt hơn, định hướng theo khái niệm. Điều này làm cho nó phù hợp hơn với các ứng dụng thực tế nơi các đối tượng hoặc ý tưởng quan tâm có thể thay đổi và không phải lúc nào cũng có thể xác định trước.
Link to this sectionKhám phá cách hoạt động của phân đoạn thị giác có thể gợi ý#
Vậy, phân đoạn khái niệm có thể gợi ý hoạt động như thế nào? Nó được xây dựng dựa trên các model thị giác và model ngôn ngữ thị giác lớn đã được huấn luyện trước, là các model được huấn luyện trên các tập hợp hình ảnh khổng lồ và trong nhiều trường hợp, là văn bản đi kèm. Việc huấn luyện này cho phép chúng học các mô hình thị giác tổng quát và ý nghĩa ngữ nghĩa.
Hầu hết các model PCS sử dụng kiến trúc dựa trên Transformer, xử lý toàn bộ hình ảnh cùng một lúc để hiểu cách các vùng khác nhau liên quan với nhau. Một Vision Transformer trích xuất các đặc trưng thị giác từ hình ảnh, trong khi một bộ mã hóa văn bản (text encoder) chuyển đổi các từ thành các biểu diễn số mà model có thể làm việc.
Trong quá trình huấn luyện, các model này có thể học từ các loại giám sát khác nhau, bao gồm các mặt nạ cấp độ pixel xác định ranh giới đối tượng chính xác, hộp bao quanh xác định vị trí đối tượng một cách đại khái và các nhãn cấp độ hình ảnh mô tả những gì xuất hiện trong hình ảnh. Việc huấn luyện sử dụng các loại dữ liệu được dán nhãn khác nhau giúp model nắm bắt được cả chi tiết tinh tế và các khái niệm thị giác rộng hơn.
Tại thời điểm suy luận, nghĩa là khi model thực sự được sử dụng để đưa ra các dự đoán, PCS tuân theo một quy trình điều khiển bằng gợi ý. Người dùng cung cấp hướng dẫn thông qua các mô tả bằng văn bản, các gợi ý thị giác như điểm hoặc hộp, hoặc hình ảnh ví dụ. Model mã hóa cả gợi ý và hình ảnh thành một biểu diễn nội bộ chia sẻ hoặc các embedding và xác định các vùng phù hợp với khái niệm đã mô tả.
Sau đó, một bộ giải mã mặt nạ (mask decoder) sẽ chuyển đổi biểu diễn chia sẻ này thành các mặt nạ phân đoạn cấp độ pixel chính xác. Vì model liên kết các đặc trưng thị giác với ý nghĩa ngữ nghĩa, nó có thể phân đoạn các khái niệm mới ngay cả khi chúng không được bao gồm rõ ràng trong quá trình huấn luyện.
Ngoài ra, thường thì đầu ra có thể được tinh chỉnh bằng cách điều chỉnh gợi ý hoặc thêm hướng dẫn bổ sung, điều này giúp model xử lý các cảnh quan phức tạp hoặc mơ hồ. Quy trình lặp lại này hỗ trợ tối ưu hóa thực tế trong quá trình triển khai.
Các model phân đoạn khái niệm có thể gợi ý thường được đánh giá dựa trên mức độ chúng phân đoạn tốt các khái niệm chưa từng thấy và mức độ hoạt động mạnh mẽ của chúng trên các cảnh quan khác nhau. Các điểm chuẩn (benchmarks) thường tập trung vào chất lượng mặt nạ, khả năng tổng quát hóa và hiệu quả tính toán, phản ánh các yêu cầu triển khai thực tế.
Link to this sectionCác trường hợp sử dụng thực tế của PCS#
Tiếp theo, hãy xem xét nơi phân đoạn khái niệm có thể gợi ý đã được sử dụng và bắt đầu tạo ra tác động thực sự.
Link to this sectionPhân đoạn hình ảnh linh hoạt cho chẩn đoán hình ảnh y tế#
Chẩn đoán hình ảnh y tế liên quan đến nhiều cấu trúc sinh học, bệnh tật và các loại hình quét, và các ca bệnh mới xuất hiện mỗi ngày. Các model phân đoạn truyền thống gặp khó khăn trong việc theo kịp sự đa dạng này.
PCS phù hợp tự nhiên với không gian này vì nó cho phép các bác sĩ lâm sàng mô tả những gì họ muốn tìm thay vì chọn từ một danh sách ngắn, cứng nhắc. Với các cụm từ văn bản hoặc gợi ý thị giác, PCS có thể được sử dụng để phân đoạn trực tiếp các cơ quan hoặc các vùng cần quan tâm, mà không cần huấn luyện lại model cho mỗi tác vụ mới. Điều này giúp xử lý các nhu cầu lâm sàng đa dạng dễ dàng hơn, giảm nhu cầu vẽ mặt nạ thủ công và hoạt động trên nhiều loại hình ảnh.
Một ví dụ tuyệt vời là MedSAM-3, giúp thích ứng kiến trúc SAM 3 cho PCS có thể gợi ý bằng văn bản trong chẩn đoán hình ảnh y tế. Model này có thể được gợi ý bằng các thuật ngữ giải phẫu và bệnh lý rõ ràng, chẳng hạn như tên cơ quan như gan hoặc thận và các khái niệm liên quan đến tổn thương như khối u hoặc vết thương. Với một gợi ý, model phân đoạn trực tiếp vùng tương ứng trong hình ảnh y tế.
MedSAM-3 cũng tích hợp các model ngôn ngữ lớn đa phương thức (MLLM hoặc LLM đa phương thức), có thể suy luận trên cả văn bản và hình ảnh. Các model này hoạt động trong một thiết lập agent-in-the-loop, nơi kết quả được tinh chỉnh lặp đi lặp lại để cải thiện độ chính xác trong các trường hợp khó khăn hơn.

Hình 3. Quy trình MedSAM-3 cho phân đoạn khối u bằng văn bản gợi ý trong hình ảnh y tế (Nguồn)
MedSAM-3 hoạt động tốt trên dữ liệu X-quang, MRI, CT, siêu âm và video, làm nổi bật cách PCS có thể cho phép các quy trình chẩn đoán hình ảnh y tế linh hoạt và hiệu quả hơn trong các cơ sở lâm sàng thực tế.
Link to this sectionPhân đoạn thích ứng cho phẫu thuật robot và tự động hóa#
Phẫu thuật robot dựa vào các hệ thống thị giác để theo dõi công cụ và hiểu các cảnh phẫu thuật thay đổi nhanh chóng. Các thiết bị di chuyển nhanh, ánh sáng thay đổi và các công cụ mới có thể xuất hiện bất cứ lúc nào, điều này làm cho các hệ thống nhãn được xác định trước trở nên khó duy trì.
Với PCS, robot có thể theo dõi công cụ, hướng dẫn camera và thực hiện theo các bước phẫu thuật trong thời gian thực. Điều này làm giảm việc dán nhãn thủ công và giúp các hệ thống dễ dàng thích ứng với các thủ tục khác nhau hơn. Các bác sĩ phẫu thuật hoặc hệ thống tự động có thể sử dụng các gợi ý bằng văn bản như “kẹp”, “dao mổ” hoặc “công cụ camera” để chỉ ra những gì cần được phân đoạn trong một hình ảnh.

Hình 4. Phân đoạn các thiết bị phẫu thuật được sử dụng trong quá trình phẫu thuật robot (Nguồn)
Link to this sectionPhân đoạn từ vựng mở với Ultralytics YOLOE-26#
Một model hiện đại thú vị khác liên quan đến phân đoạn khái niệm có thể gợi ý là Ultralytics YOLOE-26 của chúng tôi. Model của chúng tôi mang đến khả năng phân đoạn từ vựng mở, điều khiển bằng gợi ý cho dòng model Ultralytics YOLO.
YOLOE-26 được xây dựng trên kiến trúc Ultralytics YOLO26 và hỗ trợ phân đoạn đối tượng từ vựng mở. YOLOE-26 cho phép người dùng hướng dẫn phân đoạn theo nhiều cách.
Nó hỗ trợ các gợi ý bằng văn bản, trong đó các cụm từ ngắn, được căn cứ vào thị giác có thể xác định đối tượng mục tiêu, cũng như các gợi ý thị giác, cung cấp hướng dẫn bổ sung dựa trên các dấu hiệu hình ảnh. Ngoài ra, YOLOE-26 còn bao gồm chế độ không cần gợi ý (prompt-free) cho suy luận zero-shot, nơi model phát hiện và phân đoạn các đối tượng từ một bộ từ vựng có sẵn mà không cần gợi ý của người dùng.
YOLOE-26 rất tuyệt vời cho các ứng dụng như phân tích video, nhận thức robot và các hệ thống dựa trên edge, nơi các danh mục đối tượng có thể thay đổi nhưng độ trễ thấp và lưu lượng đáng tin cậy vẫn là yếu tố thiết yếu. Nó cũng đặc biệt hữu ích cho việc dán nhãn dữ liệu và quản lý tập dữ liệu, vì nó hợp lý hóa các quy trình bằng cách tự động hóa các phần của quá trình chú thích.
Link to this sectionƯu và nhược điểm của phân đoạn khái niệm có thể gợi ý#
Dưới đây là một số lợi ích chính của việc sử dụng phân đoạn khái niệm có thể gợi ý:
- Lặp lại và tạo mẫu nhanh hơn: Các tác vụ phân đoạn mới có thể được kiểm tra nhanh chóng bằng cách thay đổi gợi ý thay vì xây dựng lại các tập dữ liệu hoặc huấn luyện lại các model, giúp tăng tốc thử nghiệm và phát triển.
- Khả năng thích ứng trên các lĩnh vực: Cùng một model PCS thường có thể được áp dụng cho các lĩnh vực khác nhau, chẳng hạn như chẩn đoán hình ảnh y tế, robot hoặc phân tích video, với những thay đổi tối thiểu đối với quy trình làm việc.
- Tinh chỉnh tương tác: Người dùng có thể điều chỉnh lặp lại các gợi ý hoặc thêm hướng dẫn để cải thiện kết quả, giúp xử lý các cảnh quan mơ hồ hoặc các trường hợp biên dễ dàng hơn mà không cần huấn luyện lại.
Mặc dù PCS có những ưu điểm rõ ràng, đây là một số hạn chế cần xem xét:
- Độ nhạy gợi ý (Prompt sensitivity): Những thay đổi nhỏ trong cách viết hoặc cung cấp gợi ý có thể ảnh hưởng đến kết quả đầu ra. Các gợi ý quá mơ hồ hoặc quá cụ thể có thể dẫn đến phân đoạn không đầy đủ hoặc không chính xác.
- Hành vi ít dự đoán được: Vì model diễn giải các gợi ý thay vì chọn từ các nhãn cố định, kết quả có thể thay đổi nhiều hơn trên các cảnh quan và đầu vào, điều này có thể là một vấn đề đối với các quy trình được kiểm soát chặt chẽ.
- Diễn giải khái niệm mơ hồ: Một số khái niệm mang tính chủ quan hoặc được định nghĩa lỏng lẻo, điều này có thể dẫn đến kết quả phân đoạn không nhất quán giữa những người dùng hoặc trên các hình ảnh khác nhau.
- Độ tin cậy hạn chế đối với các mục tiêu rất cụ thể: Các model dựa trên gợi ý thường ít đáng tin cậy hơn đối với các tác vụ được xác định hẹp, dành riêng cho đối tượng, chẳng hạn như phát hiện lỗi, nơi cần xác định chính xác, nhất quán các đặc điểm tinh vi.
Link to this sectionLựa chọn giữa phân đoạn có thể gợi ý và phân đoạn truyền thống#
Khi bạn khám phá phân đoạn có thể gợi ý, bạn có thể tự hỏi ứng dụng nào phù hợp nhất và khi nào một model thị giác máy tính truyền thống như YOLO26 phù hợp hơn cho vấn đề bạn đang cố gắng giải quyết. Phân đoạn có thể gợi ý hoạt động tốt cho các đối tượng chung, nhưng nó không phù hợp cho các trường hợp sử dụng yêu cầu kết quả rất chính xác và nhất quán.
Phát hiện lỗi là một ví dụ điển hình. Trong sản xuất, các lỗi thường nhỏ và tinh vi, chẳng hạn như các vết trầy xước nhỏ, vết lõm, sai lệch hoặc bất thường trên bề mặt. Chúng cũng có thể thay đổi rất nhiều tùy thuộc vào vật liệu, ánh sáng và điều kiện sản xuất.
Những vấn đề này rất khó mô tả bằng một gợi ý đơn giản và thậm chí còn khó hơn đối với một model mục đích chung để phát hiện một cách đáng tin cậy. Nhìn chung, các model dựa trên gợi ý có xu hướng bỏ lỡ các lỗi hoặc tạo ra kết quả không ổn định, trong khi các model được huấn luyện cụ thể trên dữ liệu lỗi đáng tin cậy hơn nhiều cho các hệ thống kiểm tra thực tế.
Link to this sectionCác điểm chính cần lưu ý#
Phân đoạn khái niệm có thể gợi ý giúp các hệ thống thị giác dễ dàng thích ứng với thế giới thực, nơi các đối tượng và ý tưởng mới xuất hiện mọi lúc. Thay vì bị khóa vào các nhãn cố định, người dùng có thể chỉ cần mô tả những gì họ muốn phân đoạn và để model làm phần còn lại, điều này tiết kiệm thời gian và giảm công việc thủ công. Mặc dù vẫn còn những hạn chế, PCS đã và đang thay đổi cách phân đoạn được sử dụng trong thực tế và có khả năng trở thành một phần cốt lõi của các hệ thống thị giác trong tương lai.
Khám phá thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để tìm hiểu về AI trong robot và thị giác máy tính trong sản xuất. Khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu với AI thị giác ngay hôm nay!






