Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Hãy cùng chúng tôi tìm hiểu về Segment Anything Model 2 (SAM 2) của Meta AI và hiểu các ứng dụng thời gian thực mà nó có thể được sử dụng trong nhiều ngành công nghiệp khác nhau.
Dựa trên thành công của SAM ban đầu, vốn đã được sử dụng trong các lĩnh vực như khoa học biển, ảnh vệ tinh và y học, SAM 2 giải quyết các thách thức như các vật thể chuyển động nhanh và những thay đổi về hình thức. Độ chính xác và hiệu quả được cải thiện của nó làm cho nó trở thành một công cụ linh hoạt cho nhiều ứng dụng. Trong bài viết này, chúng ta sẽ tập trung vào nơi SAM 2 có thể được áp dụng và tại sao nó lại quan trọng đối với cộng đồng AI.
SAM 2 là gì?
Segment Anything Model 2 là một mô hình nền tảng tiên tiến hỗ trợ phân đoạn trực quan theo gợi ý (promptable visual segmentation) hay PVS trong cả hình ảnh và video. PVS là một kỹ thuật trong đó một mô hình có thể phân đoạn hoặc xác định các phần khác nhau của hình ảnh hoặc video dựa trên các gợi ý hoặc đầu vào cụ thể do người dùng cung cấp. Các gợi ý này có thể ở dạng nhấp chuột, hộp hoặc mặt nạ làm nổi bật khu vực quan tâm. Sau đó, mô hình sẽ tạo ra một mặt nạ phân đoạn phác thảo khu vực được chỉ định.
Kiến trúc SAM 2 được xây dựng dựa trên SAM ban đầu bằng cách mở rộng từ phân đoạn ảnh sang phân đoạn video. Nó có bộ giải mã mặt nạ (mask decoder) gọn nhẹ, sử dụng dữ liệu hình ảnh và các gợi ý (prompt) để tạo ra mặt nạ phân đoạn. Đối với video, SAM 2 giới thiệu một hệ thống bộ nhớ giúp nó ghi nhớ thông tin từ các khung hình trước đó, đảm bảo theo dõi chính xác theo thời gian. Hệ thống bộ nhớ bao gồm các thành phần lưu trữ và thu hồi các chi tiết về các đối tượng đang được phân đoạn. SAM 2 cũng có thể xử lý các trường hợp che khuất, theo dõi các đối tượng qua nhiều khung hình và quản lý các gợi ý mơ hồ bằng cách tạo ra một số mặt nạ có thể. Kiến trúc tiên tiến của SAM 2 làm cho nó có khả năng cao trong cả môi trường tĩnh và động.
Cụ thể, đối với phân đoạn video, SAM 2 đạt được độ chính xác cao hơn với số lần tương tác của người dùng ít hơn ba lần so với các phương pháp trước đây. Đối với phân đoạn hình ảnh, SAM 2 vượt trội hơn Segment Anything Model (SAM) ban đầu, nhanh hơn và chính xác hơn sáu lần. Cải tiến này đã được giới thiệu trong bài nghiên cứu SAM 2 trên 37 bộ dữ liệu khác nhau, bao gồm 23 bộ mà SAM đã được thử nghiệm trước đó.
Điều thú vị là, SAM 2 của Meta AI được phát triển bằng cách tạo ra tập dữ liệu phân đoạn video lớn nhất cho đến nay, tập dữ liệu SA-V. Tập dữ liệu mở rộng bao gồm hơn 50.000 video và 35,5 triệu mặt nạ phân đoạn và được thu thập thông qua đóng góp tương tác của người dùng. Người chú thích đã cung cấp các lời nhắc và chỉnh sửa để giúp mô hình học hỏi từ nhiều tình huống và loại đối tượng khác nhau.
Các ứng dụng của Segment Anything Model 2
Nhờ các khả năng nâng cao trong phân đoạn hình ảnh và video, SAM 2 có thể được sử dụng trong nhiều ngành công nghiệp khác nhau. Hãy cùng khám phá một số ứng dụng này.
SAM 2 cho phép Thực tế tăng cường (AR) và Thực tế ảo (VR)
Mô hình phân đoạn mới của Meta AI có thể được sử dụng cho các ứng dụng Thực tế tăng cường (AR) và Thực tế ảo (VR). Ví dụ: SAM 2 có thể xác định và phân đoạn chính xác các đối tượng trong thế giới thực và làm cho tương tác với các đối tượng ảo trở nên chân thực hơn. Nó có thể hữu ích trong nhiều lĩnh vực như gaming, giáo dục và đào tạo, nơi mà sự tương tác thực tế giữa các yếu tố ảo và thực là rất cần thiết.
Với các thiết bị như kính AR ngày càng trở nên tiên tiến hơn, các khả năng của SAM 2 có thể sớm được tích hợp vào chúng. Hãy tưởng tượng đeo kính và nhìn xung quanh phòng khách của bạn. Khi kính của bạn phân đoạn và nhận thấy bát nước của con chó của bạn, nó có thể nhắc bạn đổ đầy lại, như trong hình bên dưới. Hoặc, nếu bạn đang nấu một công thức mới, kính có thể xác định các thành phần trên mặt bàn của bạn và cung cấp hướng dẫn và mẹo từng bước, cải thiện trải nghiệm nấu ăn của bạn và đảm bảo bạn có tất cả các vật dụng cần thiết trong tay.
Hình 2. SAM 2 có thể sớm được sử dụng trong kính AR.
Hình ảnh sonar với Segment Anything Model 2
Nghiên cứu sử dụng mô hình SAM đã chỉ ra rằng nó có thể được áp dụng trong các lĩnh vực chuyên biệt như ảnh sonar. Ảnh sonar đi kèm với những thách thức riêng do độ phân giải thấp, mức độ nhiễu cao và hình dạng phức tạp của các vật thể trong ảnh. Bằng cách tinh chỉnh SAM cho ảnh sonar, các nhà nghiên cứu đã chứng minh khả năng phân đoạn chính xác các vật thể dưới nước khác nhau như mảnh vụn biển, các thành tạo địa chất và các vật thể đáng quan tâm khác. Hình ảnh dưới nước chính xác và đáng tin cậy có thể được sử dụng trong nghiên cứu biển, khảo cổ học dưới nước, quản lý nghề cá và giám sát cho các nhiệm vụ như lập bản đồ môi trường sống, khám phá hiện vật và phát hiện mối đe dọa.
Hình 3. Một ví dụ về sử dụng SAM đã tinh chỉnh để phân đoạn hình ảnh sonar.
Vì SAM 2 xây dựng và cải thiện nhiều thách thức mà SAM phải đối mặt, nên nó có tiềm năng cải thiện hơn nữa việc phân tích hình ảnh sonar. Khả năng phân đoạn chính xác của nó có thể hỗ trợ trong nhiều ứng dụng hàng hải, bao gồm nghiên cứu khoa học và nghề cá. Ví dụ: SAM 2 có thể phác thảo hiệu quả các cấu trúc dưới nước, phát hiện mảnh vụn biển và xác định các vật thể trong hình ảnh sonar nhìn về phía trước, góp phần vào việc khám phá và giám sát dưới nước chính xác và hiệu quả hơn.
Dưới đây là những lợi ích tiềm năng của việc sử dụng SAM 2 để phân tích hình ảnh sonar:
Hiệu quả: Giảm thời gian và công sức cần thiết cho phân đoạn thủ công, cho phép các chuyên gia tập trung nhiều hơn vào phân tích và ra quyết định.
Tính nhất quán: Cung cấp kết quả phân vùng nhất quán và có thể tái tạo, điều cần thiết cho nghiên cứu và giám sát biển quy mô lớn.
Tính linh hoạt (Versatility): Có khả năng xử lý một loạt các hình ảnh sonar, làm cho nó hữu ích cho các ứng dụng đa dạng trong khoa học và công nghiệp hàng hải.
Bằng cách tích hợp SAM 2 vào quy trình chụp ảnh sonar, ngành công nghiệp hàng hải có thể đạt được hiệu quả, độ chính xác và độ tin cậy cao hơn trong thăm dò và phân tích dưới nước, cuối cùng dẫn đến kết quả tốt hơn trong nghiên cứu hàng hải.
Sử dụng SAM 2 trong xe tự hành
Một ứng dụng khác của SAM 2 là trong xe tự hành. SAM 2 có thể xác định chính xác các đối tượng như người đi bộ, các phương tiện khác, biển báo đường bộ và chướng ngại vật trong thời gian thực. Mức độ chi tiết mà SAM 2 có thể cung cấp là rất cần thiết để đưa ra các quyết định điều hướng an toàn và tránh va chạm. Bằng cách xử lý dữ liệu trực quan một cách chính xác, SAM 2 giúp tạo ra một bản đồ chi tiết và đáng tin cậy về môi trường và dẫn đến việc đưa ra quyết định tốt hơn.
Hình 4. Sử dụng phân vùng (segmentation) để hiểu rõ hơn về giao thông.
Khả năng hoạt động tốt trong các điều kiện ánh sáng khác nhau, thay đổi thời tiết và môi trường động của SAM 2 làm cho nó trở nên đáng tin cậy đối với xe tự hành. Cho dù đó là một con phố đô thị nhộn nhịp hay một đường cao tốc đầy sương mù, SAM 2 có thể liên tục xác định và phân đoạn các đối tượng một cách chính xác để xe có thể phản ứng chính xác với các tình huống khác nhau.
Tuy nhiên, có một số hạn chế cần lưu ý. Đối với các đối tượng phức tạp, chuyển động nhanh, SAM 2 đôi khi có thể bỏ lỡ các chi tiết nhỏ và các dự đoán của nó có thể trở nên không ổn định giữa các khung hình. Ngoài ra, SAM 2 đôi khi có thể nhầm lẫn nhiều đối tượng trông giống nhau trong các cảnh đông đúc. Những thách thức này là lý do tại sao việc tích hợp các cảm biến và công nghệ bổ sung là rất quan trọng trong các ứng dụng lái xe tự động.
Giám sát môi trường với sự hỗ trợ của SAM 2
Giám sát môi trường bằng thị giác máy tính có thể phức tạp, đặc biệt khi thiếu dữ liệu được gán nhãn, nhưng đó cũng là điều khiến nó trở thành một ứng dụng thú vị cho SAM 2. SAM 2 có thể được sử dụng để theo dõi và phân tích những thay đổi trong cảnh quan tự nhiên bằng cách phân đoạn và xác định chính xác các đặc điểm môi trường khác nhau như rừng, vùng nước, khu vực đô thị và đất nông nghiệp từ hình ảnh vệ tinh hoặc máy bay không người lái. Cụ thể, phân đoạn chính xác giúp theo dõi nạn phá rừng, đô thị hóa và những thay đổi trong sử dụng đất theo thời gian để cung cấp dữ liệu có giá trị cho bảo tồn môi trường và lập kế hoạch.
Dưới đây là một số lợi ích của việc sử dụng mô hình như SAM 2 để phân tích các thay đổi môi trường theo thời gian:
Phát hiện sớm: Xác định các dấu hiệu ban đầu của suy thoái môi trường, cho phép can thiệp kịp thời để ngăn chặn thiệt hại thêm.
Quản lý tài nguyên: Hỗ trợ quản lý hiệu quả tài nguyên thiên nhiên bằng cách cung cấp thông tin chi tiết về trạng thái của các đặc điểm môi trường khác nhau.
Bảo tồn đa dạng sinh học (Biodiversity conservation): Giúp theo dõi động vật hoang dã và giám sát đa dạng sinh học, đóng góp vào các nỗ lực bảo tồn và bảo vệ các loài có nguy cơ tuyệt chủng.
Ứng phó thảm họa: Hỗ trợ đánh giá tác động của các thảm họa tự nhiên như lũ lụt, cháy rừng và bão, cho phép lập kế hoạch ứng phó và phục hồi sau thảm họa một cách nhanh chóng và hiệu quả.
Chỉnh sửa video với SAM 2: Hãy tự mình thử
Segment Anything 2 Demo là một cách tuyệt vời để thử mô hình trên video. Sử dụng khả năng PVS của SAM 2, chúng tôi đã lấy một video Ultralytics YouTube cũ và có thể phân đoạn ba đối tượng hoặc người trong video và pixel hóa chúng. Theo truyền thống, việc chỉnh sửa ba cá nhân ra khỏi một video như vậy sẽ tốn thời gian và tẻ nhạt và đòi hỏi phải che (masking) thủ công từng khung hình. Tuy nhiên, SAM 2 đơn giản hóa quy trình này. Chỉ với một vài cú nhấp chuột trên bản demo, bạn có thể bảo vệ danh tính của ba đối tượng quan tâm chỉ trong vài giây.
Hình 6. Trải nghiệm bản Demo SAM 2.
Bản demo cũng cho phép bạn thử một vài hiệu ứng hình ảnh khác nhau, như đặt đèn chiếu vào các đối tượng bạn chọn để theo dõi và xóa các đối tượng đang được theo dõi. Nếu bạn thích bản demo và sẵn sàng bắt đầu đổi mới với SAM 2, hãy xem trang tài liệu về mô hình Ultralytics SAM 2 để biết hướng dẫn chi tiết về cách thực hành với mô hình. Khám phá các tính năng, các bước cài đặt và các ví dụ để tận dụng tối đa tiềm năng của SAM 2 trong các dự án của bạn!
Tóm lại
Segment Anything Model 2 (SAM 2) của Meta AI đang chuyển đổi phân đoạn video và hình ảnh. Khi các tác vụ như theo dõi đối tượng được cải thiện, chúng ta đang khám phá ra những cơ hội mới trong chỉnh sửa video, thực tế hỗn hợp, nghiên cứu khoa học và chẩn đoán hình ảnh y tế. Bằng cách làm cho các tác vụ phức tạp trở nên dễ dàng hơn và tăng tốc chú thích, SAM 2 đã sẵn sàng trở thành một công cụ quan trọng cho cộng đồng AI. Khi chúng ta tiếp tục khám phá và đổi mới với các mô hình như SAM 2, chúng ta có thể dự đoán nhiều ứng dụng và tiến bộ đột phá hơn nữa trong các lĩnh vực khác nhau!