Khám phá phân đoạn khái niệm có thể gợi ý, sự khác biệt so với các phương pháp truyền thống và cách các mô hình liên quan như YOLOE-26 cho phép khả năng từ vựng mở.
Khám phá phân đoạn khái niệm có thể gợi ý, sự khác biệt so với các phương pháp truyền thống và cách các mô hình liên quan như YOLOE-26 cho phép khả năng từ vựng mở.
Trí tuệ nhân tạo thị giác (Vision AI) đang phát triển nhanh chóng và được sử dụng rộng rãi để phân tích hình ảnh và video trong môi trường thực tế. Ví dụ, các ứng dụng từ hệ thống quản lý giao thông đến phân tích bán lẻ đang được tích hợp với các mô hình thị giác máy tính .
Trong nhiều ứng dụng này, các mô hình thị giác, chẳng hạn như mô hình phát hiện đối tượng, được huấn luyện để nhận dạng một tập hợp các đối tượng được xác định trước, bao gồm phương tiện, con người và thiết bị. Trong quá trình huấn luyện, các mô hình này được cho xem nhiều ví dụ được gắn nhãn để chúng có thể học cách mỗi đối tượng xuất hiện và cách phân biệt nó với các đối tượng khác trong một khung cảnh.
Đối với các tác vụ phân đoạn, các mô hình tiến thêm một bước bằng cách tạo ra các đường viền chính xác ở cấp độ pixel xung quanh các đối tượng này. Điều này cho phép hệ thống hiểu chính xác vị trí của từng đối tượng trong hình ảnh.
Phương pháp này hoạt động tốt miễn là hệ thống chỉ cần nhận dạng những gì nó đã được huấn luyện. Tuy nhiên, trong môi trường thực tế, điều đó hiếm khi xảy ra.
Các khung cảnh trực quan thường mang tính động. Các đối tượng và khái niệm hình ảnh mới xuất hiện, điều kiện thay đổi, và người dùng thường muốn segment Các đối tượng không thuộc thiết lập huấn luyện ban đầu.
Những hạn chế này đặc biệt rõ ràng khi nói đến phân đoạn hình ảnh. Khi Trí tuệ nhân tạo thị giác (Vision AI) tiếp tục phát triển, nhu cầu về các mô hình phân đoạn linh hoạt hơn, có thể thích ứng với các khái niệm mới mà không cần huấn luyện lại nhiều lần, ngày càng tăng. Đó là lý do tại sao phân đoạn khái niệm có thể gợi ý (Promptable Concept Segmentation - PCS) đang thu hút sự chú ý.
Thay vì dựa vào một danh sách các danh mục đối tượng cố định, người dùng có thể mô tả những gì họ muốn. segment sử dụng văn bản, gợi ý trực quan hoặc hình ảnh ví dụ. Sau đó, các mô hình này có thể xác định và segment Tất cả các vùng phù hợp với khái niệm được mô tả, ngay cả khi khái niệm đó không được đề cập rõ ràng trong quá trình huấn luyện.
Trong bài viết này, chúng ta sẽ tìm hiểu cách thức hoạt động của phân đoạn khái niệm có thể gợi ý, sự khác biệt so với các phương pháp truyền thống và những lĩnh vực ứng dụng hiện nay của nó.
Trong hầu hết các trường hợp, các mô hình phân đoạn được huấn luyện để nhận dạng một danh sách ngắn các loại đối tượng. Điều này hoạt động tốt khi hệ thống AI thị giác chỉ cần... detect Và segment một tập hợp các đối tượng cụ thể.
Tuy nhiên, trong các ứng dụng thực tế, bối cảnh trực quan rất năng động. Các đối tượng mới xuất hiện, yêu cầu nhiệm vụ thay đổi và người dùng thường cần phải... segment Các khái niệm không được bao gồm trong bộ nhãn ban đầu. Việc hỗ trợ các trường hợp này thường đòi hỏi phải thu thập dữ liệu và chú thích chất lượng cao mới, sau đó huấn luyện lại mô hình, điều này làm tăng chi phí và làm chậm quá trình triển khai.
Phân đoạn khái niệm có thể gợi ý giải quyết vấn đề này bằng cách cho phép người dùng cho mô hình biết cần tìm kiếm gì thay vì chọn từ một danh sách nhãn cố định. Người dùng mô tả đối tượng hoặc ý tưởng mà họ đang tìm kiếm, và mô hình sẽ làm nổi bật tất cả các vùng phù hợp trong hình ảnh. Điều này giúp việc kết nối ý định của người dùng với các pixel thực tế trong hình ảnh trở nên dễ dàng hơn nhiều.

Các mô hình hỗ trợ phân đoạn khái niệm có thể gợi ý rất linh hoạt vì chúng có thể nhận nhiều loại đầu vào khác nhau. Nói cách khác, có nhiều hơn một cách để cho mô hình biết cần tìm kiếm điều gì, chẳng hạn như mô tả bằng văn bản, gợi ý trực quan hoặc thông qua hình ảnh ví dụ.
Dưới đây là phân tích chi tiết hơn về từng phương pháp:
Trước khi đi sâu vào cách thức hoạt động của phân đoạn khái niệm có thể gợi ý, chúng ta hãy so sánh nó với các phương pháp phân đoạn đối tượng truyền thống khác nhau.
PCS cho phép xây dựng các mô hình có vốn từ vựng mở và được điều khiển bằng gợi ý. Nó có thể hoạt động với các ý tưởng mới được mô tả thông qua gợi ý, điều mà các phương pháp phân đoạn truyền thống không thể làm được. Có nhiều loại phương pháp phân đoạn truyền thống khác nhau, mỗi loại đều có những giả định và hạn chế riêng.
Dưới đây là một vài ví dụ về các loại phân khúc thị trường truyền thống quan trọng:
Tất cả các phương pháp này đều dựa trên một danh sách các loại đối tượng được xác định trước. Chúng hoạt động tốt trong phạm vi đó, nhưng lại không xử lý tốt các khái niệm nằm ngoài phạm vi đó. Khi cần phân đoạn một đối tượng cụ thể mới, thường cần thêm dữ liệu huấn luyện và tinh chỉnh mô hình.
PCS hướng đến mục tiêu thay đổi điều đó. Thay vì bị gò bó trong các danh mục định sẵn, nó cho phép bạn mô tả những gì bạn muốn. segment trong một hình ảnh tại thời điểm suy luận.
Tiếp theo, chúng ta hãy cùng xem xét sự phát triển của các mô hình phân khúc hướng tới phân khúc khái niệm có thể gợi ý.
Một mô hình nền tảng phổ biến đánh dấu sự thay đổi trong phân khúc thị trường là SAM , hay còn gọi là Mô hình Phân khúc Bất kỳ (Segment Anything Model). Mô hình này được giới thiệu vào năm 2023. Thay vì dựa vào các danh mục đối tượng được định nghĩa trước, SAM Cho phép người dùng hướng dẫn phân đoạn bằng các gợi ý trực quan đơn giản như điểm hoặc hộp giới hạn.
Với SAM Người dùng không còn phải chọn nhãn nữa. Họ chỉ cần chỉ ra vị trí của một đối tượng, và mô hình sẽ tạo ra một mặt nạ cho nó. Điều này làm cho việc phân đoạn trở nên linh hoạt hơn, nhưng người dùng vẫn cần chỉ cho mô hình biết cần tìm ở đâu.
SAM 2 , ra mắt năm 2024, được xây dựng dựa trên ý tưởng này bằng cách xử lý các cảnh phức tạp hơn và mở rộng phân đoạn có thể gợi ý sang video. Nó cải thiện độ ổn định trong các điều kiện ánh sáng, hình dạng đối tượng và chuyển động khác nhau, trong khi vẫn chủ yếu dựa vào các gợi ý trực quan để hướng dẫn phân đoạn.
Mô hình SAM 3 là bước tiến mới nhất trong quá trình phát triển này. Nó được phát hành vào năm ngoái và là một mô hình thống nhất kết hợp khả năng hiểu hình ảnh với hướng dẫn ngôn ngữ, cho phép hành vi nhất quán trong các tác vụ phân đoạn hình ảnh và video.
Với SAM 3. Người dùng không chỉ giới hạn ở việc chỉ trỏ hoặc vẽ theo hướng dẫn. Thay vào đó, họ có thể mô tả những gì họ muốn. segment Sử dụng văn bản, mô hình sẽ tìm kiếm trong các khung hình ảnh hoặc video những vùng khớp với mô tả đó.
Phân đoạn được định hướng bởi các khái niệm chứ không phải các danh mục đối tượng cố định, hỗ trợ việc sử dụng từ vựng mở trong các cảnh khác nhau và theo thời gian. Trên thực tế, SAM 3 hoạt động trên một không gian khái niệm rộng lớn, được xây dựng dựa trên một hệ thống tri thức bắt nguồn từ các nguồn như Wikidata và được mở rộng thông qua dữ liệu huấn luyện quy mô lớn.

So với các phiên bản trước đó chủ yếu dựa vào các gợi ý hình học, SAM Phiên bản 3 thể hiện một bước tiến hướng tới phân khúc linh hoạt hơn, dựa trên khái niệm. Điều này làm cho nó phù hợp hơn với các ứng dụng thực tế, nơi các đối tượng hoặc ý tưởng quan tâm có thể thay đổi và không phải lúc nào cũng có thể được xác định trước.
Vậy, phân đoạn khái niệm có thể gợi ý hoạt động như thế nào? Nó dựa trên các mô hình ngôn ngữ và thị giác được huấn luyện trước quy mô lớn, là những mô hình được huấn luyện trên các bộ sưu tập hình ảnh khổng lồ và, trong nhiều trường hợp, cả văn bản đi kèm. Quá trình huấn luyện này cho phép chúng học được các mẫu hình ảnh tổng quát và ý nghĩa ngữ nghĩa.
Hầu hết các mô hình PCS sử dụng kiến trúc dựa trên transformer, xử lý toàn bộ hình ảnh cùng một lúc để hiểu mối quan hệ giữa các vùng khác nhau. Một vision transformer trích xuất các đặc điểm hình ảnh, trong khi một text encoder chuyển đổi các từ thành các biểu diễn số mà mô hình có thể sử dụng.
Trong quá trình huấn luyện, các mô hình này có thể học hỏi từ nhiều loại dữ liệu giám sát khác nhau, bao gồm mặt nạ cấp độ pixel xác định ranh giới chính xác của đối tượng, hộp giới hạn định vị gần đúng đối tượng và nhãn cấp độ hình ảnh mô tả những gì xuất hiện trong hình ảnh. Việc huấn luyện bằng cách sử dụng các loại dữ liệu được gắn nhãn khác nhau giúp mô hình nắm bắt được cả các chi tiết nhỏ và các khái niệm hình ảnh rộng hơn.
Tại thời điểm suy luận, tức là khi mô hình thực sự được sử dụng để đưa ra dự đoán, PCS tuân theo một quy trình dựa trên lời nhắc. Người dùng cung cấp hướng dẫn thông qua mô tả bằng văn bản, gợi ý trực quan như điểm hoặc hình hộp, hoặc hình ảnh ví dụ. Mô hình mã hóa cả lời nhắc và hình ảnh thành một biểu diễn nội bộ chung hoặc các embedding và xác định các vùng phù hợp với khái niệm được mô tả.
Sau đó, bộ giải mã mặt nạ sẽ chuyển đổi biểu diễn chung này thành các mặt nạ phân đoạn chính xác ở cấp độ pixel. Vì mô hình liên kết các đặc điểm hình ảnh với ý nghĩa ngữ nghĩa, nên nó có thể segment Các khái niệm mới, ngay cả khi chúng không được đề cập rõ ràng trong quá trình đào tạo.
Ngoài ra, thường thì kết quả đầu ra có thể được tinh chỉnh bằng cách điều chỉnh lời nhắc hoặc thêm hướng dẫn bổ sung, giúp mô hình xử lý các tình huống phức tạp hoặc mơ hồ. Quá trình lặp đi lặp lại này hỗ trợ tối ưu hóa thực tiễn trong quá trình triển khai.
Các mô hình phân đoạn khái niệm có thể gợi ý thường được đánh giá dựa trên mức độ hiệu quả của chúng. segment Các khái niệm chưa từng thấy trước đây và hiệu suất hoạt động mạnh mẽ của chúng trong các bối cảnh khác nhau. Các bài kiểm tra hiệu năng thường tập trung vào chất lượng mặt nạ, khả năng khái quát hóa và hiệu quả tính toán, phản ánh các yêu cầu triển khai thực tế.
Tiếp theo, chúng ta hãy xem xét việc phân đoạn khái niệm có thể gợi ý đã được sử dụng và bắt đầu tạo ra tác động thực sự ở những nơi nào.
Chụp ảnh y khoa liên quan đến nhiều cấu trúc sinh học, bệnh tật và loại hình quét khác nhau, và các trường hợp mới xuất hiện mỗi ngày. Các mô hình phân đoạn truyền thống khó có thể theo kịp sự đa dạng này.
PCS phù hợp một cách tự nhiên với không gian này vì nó cho phép các bác sĩ lâm sàng mô tả những gì họ muốn tìm thay vì phải chọn từ một danh sách ngắn gọn, cứng nhắc. Với các cụm từ bằng văn bản hoặc các gợi ý trực quan, PCS có thể được sử dụng để segment Các cơ quan hoặc khu vực cần quan tâm được xác định trực tiếp, mà không cần huấn luyện lại mô hình cho mỗi nhiệm vụ mới. Điều này giúp dễ dàng xử lý các nhu cầu lâm sàng đa dạng, giảm thiểu nhu cầu vẽ mặt nạ thủ công và hoạt động trên nhiều loại hình ảnh khác nhau.
Một ví dụ điển hình là MedSAM-3 , hệ thống này được điều chỉnh từ... SAM Mô hình này đề xuất 3 kiến trúc cho hệ thống phân vùng dựa trên văn bản (text-promptable PCS) trong hình ảnh y tế. Mô hình có thể được kích hoạt bằng các thuật ngữ giải phẫu và bệnh lý cụ thể, chẳng hạn như tên các cơ quan như gan hoặc thận và các khái niệm liên quan đến tổn thương như khối u hoặc tổn thương. Khi được kích hoạt, mô hình sẽ trực tiếp phân đoạn vùng tương ứng trong hình ảnh y tế.
MedSAM-3 cũng tích hợp các mô hình ngôn ngữ đa phương thức quy mô lớn (MLLM hoặc LLM đa phương thức), có khả năng suy luận trên cả văn bản và hình ảnh. Các mô hình này hoạt động trong một thiết lập tác nhân tham gia vòng lặp, trong đó kết quả được tinh chỉnh lặp đi lặp lại để cải thiện độ chính xác trong các trường hợp khó khăn hơn.

MedSAM-3 hoạt động tốt trên nhiều loại dữ liệu X-quang, MRI, CT, siêu âm và video, cho thấy PCS có thể giúp tạo ra quy trình làm việc hình ảnh y tế linh hoạt và hiệu quả hơn trong môi trường lâm sàng thực tế.
Phẫu thuật robot dựa vào hệ thống thị giác để track Các công cụ và hiểu được bối cảnh phẫu thuật thay đổi nhanh chóng. Dụng cụ di chuyển nhanh, ánh sáng thay đổi và các dụng cụ mới có thể xuất hiện bất cứ lúc nào, điều này khiến việc duy trì các hệ thống nhãn được xác định trước trở nên khó khăn.
Với PCS, robot có thể track Các công cụ, camera hướng dẫn và theo dõi các bước phẫu thuật trong thời gian thực. Điều này giảm thiểu việc dán nhãn thủ công và giúp hệ thống dễ dàng thích ứng với các quy trình khác nhau. Bác sĩ phẫu thuật hoặc hệ thống tự động có thể sử dụng các lời nhắc bằng văn bản như “kẹp”, “dao mổ” hoặc “công cụ camera” để chỉ ra những gì cần được phân đoạn trong hình ảnh.

Một mô hình tiên tiến thú vị khác liên quan đến phân đoạn khái niệm có thể gợi ý là Ultralytics YOLOE-26 của chúng tôi. Mô hình này mang đến khả năng phân đoạn dựa trên từ vựng mở và gợi ý cho... Ultralytics YOLO gia đình kiểu mẫu.
YOLOE-26 được xây dựng trên kiến trúc Ultralytics YOLO26 và hỗ trợ phân đoạn đối tượng với từ vựng mở. YOLOE-26 cho phép người dùng hướng dẫn quá trình phân đoạn theo nhiều cách khác nhau.
Nó hỗ trợ các gợi ý bằng văn bản, trong đó các cụm từ ngắn gọn, trực quan có thể xác định đối tượng mục tiêu, cũng như các gợi ý trực quan, cung cấp hướng dẫn bổ sung dựa trên các tín hiệu hình ảnh. Ngoài ra, YOLOE-26 bao gồm chế độ không cần gợi ý để suy luận không cần dữ liệu huấn luyện, trong đó mô hình phát hiện và phân đoạn các đối tượng từ từ vựng được tích hợp sẵn mà không cần người dùng gợi ý.
YOLOE-26 rất phù hợp cho các ứng dụng như phân tích video, nhận thức robot và hệ thống dựa trên biên, nơi các danh mục đối tượng có thể thay đổi nhưng độ trễ thấp và thông lượng đáng tin cậy vẫn là yếu tố thiết yếu. Nó cũng đặc biệt hữu ích cho việc gắn nhãn dữ liệu và quản lý tập dữ liệu, vì nó giúp đơn giản hóa quy trình làm việc bằng cách tự động hóa một phần của quá trình chú thích.
Dưới đây là một số lợi ích chính của việc sử dụng phân đoạn khái niệm có thể gợi ý:
Mặc dù PCS có những ưu điểm rõ rệt, nhưng cần lưu ý một số hạn chế sau:
Khi tìm hiểu về phân đoạn có thể yêu cầu thao tác, bạn có thể tự hỏi nó phù hợp nhất với ứng dụng nào và khi nào một mô hình thị giác máy tính truyền thống như YOLO26 sẽ phù hợp hơn cho vấn đề bạn đang cố gắng giải quyết. Phân đoạn có thể yêu cầu thao tác hoạt động tốt với các đối tượng nói chung, nhưng nó không phù hợp với các trường hợp sử dụng yêu cầu kết quả rất chính xác và nhất quán.
Phát hiện lỗi là một ví dụ điển hình. Trong sản xuất, các lỗi thường rất nhỏ và khó nhận biết, chẳng hạn như các vết xước nhỏ, vết lõm, sự lệch vị trí hoặc các bất thường trên bề mặt. Chúng cũng có thể rất khác nhau tùy thuộc vào vật liệu, ánh sáng và điều kiện sản xuất.
Những vấn đề này rất khó mô tả bằng một câu hỏi đơn giản, và càng khó hơn nữa đối với một mô hình đa năng. detect một cách đáng tin cậy. Nhìn chung, các mô hình dựa trên thông báo thường bỏ sót lỗi hoặc tạo ra kết quả không ổn định, trong khi các mô hình được huấn luyện cụ thể trên dữ liệu lỗi lại đáng tin cậy hơn nhiều đối với các hệ thống kiểm tra thực tế.
Phân đoạn khái niệm có thể gợi ý giúp các hệ thống thị giác dễ dàng thích ứng với thế giới thực, nơi các đối tượng và ý tưởng mới xuất hiện liên tục. Thay vì bị ràng buộc bởi các nhãn cố định, người dùng chỉ cần mô tả những gì họ muốn. segment và để mô hình tự động thực hiện phần còn lại, giúp tiết kiệm thời gian và giảm thiểu công việc thủ công. Mặc dù vẫn còn những hạn chế, PCS đang dần thay đổi cách thức sử dụng phân đoạn hình ảnh trong thực tế và có khả năng trở thành một phần cốt lõi của các hệ thống thị giác máy tính trong tương lai.
Khám phá thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để tìm hiểu về AI trong robot và thị giác máy tính trong sản xuất . Khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu sử dụng Vision AI ngay hôm nay!