Ứng dụng của Mô hình phân đoạn bất kỳ 2 (SAM 2) của Meta AI

Abirami Vina

5 phút đọc

Ngày 31 tháng 7 năm 2024

Hãy cùng chúng tôi tìm hiểu sâu hơn về Mô hình phân khúc bất kỳ 2 (SAM 2) của Meta AI và tìm hiểu xem mô hình này có thể ứng dụng vào những ứng dụng thời gian thực nào trong nhiều ngành công nghiệp khác nhau.

Vào ngày 29 tháng 7 năm 2024, Meta AI đã phát hành phiên bản thứ hai của Segment Anything Model, SAM 2. Mô hình mới có thể xác định chính xác pixel nào thuộc về đối tượng mục tiêu trong cả hình ảnh và video! Phần tuyệt vời nhất là mô hình có thể theo dõi liên tục một đối tượng trên tất cả các khung hình của video theo thời gian thực. SAM 2 mở ra những khả năng thú vị cho việc chỉnh sửa video , trải nghiệm thực tế hỗn hợp và chú thích dữ liệu trực quan nhanh hơn để đào tạo các hệ thống thị giác máy tính .

Tiếp nối thành công của SAM ban đầu, vốn đã được sử dụng trong các lĩnh vực như khoa học biển , hình ảnh vệ tinh và y học , SAM 2 giải quyết các thách thức như vật thể chuyển động nhanh và thay đổi về ngoại hình. Độ chính xác và hiệu quả được cải thiện khiến nó trở thành một công cụ đa năng cho nhiều ứng dụng. Trong bài viết này, chúng tôi sẽ tập trung vào nơi có thể áp dụng SAM 2 và lý do tại sao nó quan trọng đối với cộng đồng AI.

SAM 2 là gì?

Segment Anything Model 2 là một mô hình nền tảng nâng cao hỗ trợ phân đoạn hình ảnh có thể nhắc nhở hoặc PVS trong cả hình ảnh và video. PVS là một kỹ thuật mà mô hình có thể phân đoạn hoặc xác định các phần khác nhau của hình ảnh hoặc video dựa trên các lời nhắc hoặc đầu vào cụ thể do người dùng cung cấp. Các lời nhắc này có thể ở dạng nhấp chuột, hộp hoặc mặt nạ làm nổi bật khu vực quan tâm. Sau đó, mô hình tạo ra một mặt nạ phân đoạn phác thảo khu vực được chỉ định.

Kiến trúc SAM 2 được xây dựng dựa trên SAM gốc bằng cách mở rộng từ phân đoạn hình ảnh sang bao gồm cả phân đoạn video. Nó có bộ giải mã mặt nạ nhẹ sử dụng dữ liệu hình ảnh và lời nhắc để tạo mặt nạ phân đoạn. Đối với video, SAM 2 giới thiệu một hệ thống bộ nhớ giúp ghi nhớ thông tin từ các khung hình trước đó, đảm bảo theo dõi chính xác theo thời gian. Hệ thống bộ nhớ bao gồm các thành phần lưu trữ và nhớ lại thông tin chi tiết về các đối tượng đang được phân đoạn. SAM 2 cũng có thể xử lý các điểm che khuất, theo dõi các đối tượng qua nhiều khung hình và quản lý lời nhắc mơ hồ bằng cách tạo ra một số mặt nạ có thể. Kiến trúc tiên tiến của SAM 2 giúp nó có khả năng cao trong cả môi trường hình ảnh tĩnh và động.

Cụ thể, về phân đoạn video, SAM 2 đạt được độ chính xác cao hơn với số lần tương tác của người dùng ít hơn ba lần so với các phương pháp trước đây. Đối với phân đoạn hình ảnh, SAM 2 vượt trội hơn Segment Anything Model (SAM) ban đầu, nhanh hơn và chính xác hơn sáu lần. Sự cải tiến này đã được trình bày trong bài báo nghiên cứu SAM 2 trên 37 tập dữ liệu khác nhau, bao gồm 23 tập dữ liệu mà SAM đã được thử nghiệm trước đó. 

__wf_reserved_thừa kế
Hình 1. So sánh SAM và SAM 2.

Điều thú vị là SAM 2 của Meta AI được phát triển bằng cách tạo ra bộ dữ liệu phân đoạn video lớn nhất cho đến nay, bộ dữ liệu SA-V. Bộ dữ liệu mở rộng này bao gồm hơn 50.000 video và 35,5 triệu mặt nạ phân đoạn và được thu thập thông qua các đóng góp tương tác của người dùng. Người chú thích đã cung cấp lời nhắc và sửa lỗi để giúp mô hình học hỏi từ nhiều tình huống và loại đối tượng khác nhau.

Ứng dụng của mô hình Segment Anything 2

Nhờ khả năng phân đoạn hình ảnh và video tiên tiến, SAM 2 có thể được sử dụng trong nhiều ngành công nghiệp khác nhau. Hãy cùng khám phá một số ứng dụng này.

SAM 2 cho phép Thực tế tăng cường (AR) và Thực tế ảo (VR)

Mô hình phân đoạn mới của Meta AI có thể được sử dụng cho các ứng dụng Thực tế tăng cường (AR) và Thực tế ảo (VR). Ví dụ, SAM 2 có thể xác định và phân đoạn chính xác các đối tượng trong thế giới thực và khiến việc tương tác với các đối tượng ảo trở nên chân thực hơn. Nó có thể hữu ích trong nhiều lĩnh vực như trò chơi , giáo dục và đào tạo, nơi mà tương tác thực tế giữa các yếu tố ảo và thực là điều cần thiết.

Với các thiết bị như kính AR ngày càng tiên tiến hơn, khả năng của SAM 2 có thể sớm được tích hợp vào chúng. Hãy tưởng tượng bạn đeo kính và nhìn quanh phòng khách. Khi kính phân đoạn và nhận thấy bát nước của chó, nó có thể nhắc bạn đổ đầy nước, như trong hình bên dưới. Hoặc, nếu bạn đang nấu một công thức mới, kính có thể xác định các thành phần trên mặt bàn bếp và cung cấp hướng dẫn và mẹo từng bước, cải thiện trải nghiệm nấu ăn của bạn và đảm bảo bạn có tất cả các vật dụng cần thiết trong tầm tay.

__wf_reserved_thừa kế
Hình 2. SAM 2 có thể sớm được sử dụng trong kính AR.

Hình ảnh sonar với Segment Anything Model 2

Nghiên cứu sử dụng mô hình SAM đã chỉ ra rằng nó có thể được áp dụng trong các lĩnh vực chuyên biệt như hình ảnh sonar . Hình ảnh sonar đi kèm với những thách thức độc đáo do độ phân giải thấp, mức độ nhiễu cao và hình dạng phức tạp của các vật thể trong hình ảnh. Bằng cách tinh chỉnh SAM cho hình ảnh sonar, các nhà nghiên cứu đã chứng minh khả năng phân đoạn chính xác nhiều vật thể dưới nước như mảnh vỡ biển, thành tạo địa chất và các mục quan tâm khác. Hình ảnh dưới nước chính xác và đáng tin cậy có thể được sử dụng trong nghiên cứu biển, khảo cổ học dưới nước, quản lý nghề cá và giám sát cho các nhiệm vụ như lập bản đồ môi trường sống, phát hiện hiện vật và phát hiện mối đe dọa.

__wf_reserved_thừa kế
Hình 3. Một ví dụ về việc sử dụng SAM được tinh chỉnh để phân đoạn hình ảnh sonar.

Vì SAM 2 được xây dựng và cải thiện dựa trên nhiều thách thức mà SAM phải đối mặt, nên nó có tiềm năng cải thiện hơn nữa khả năng phân tích hình ảnh sonar. Khả năng phân đoạn chính xác của nó có thể hỗ trợ nhiều ứng dụng hàng hải khác nhau, bao gồm nghiên cứu khoa học và nghề cá. Ví dụ, SAM 2 có thể phác thảo hiệu quả các cấu trúc dưới nước, phát hiện mảnh vỡ dưới biển và xác định các vật thể trong hình ảnh sonar hướng về phía trước, góp phần vào hoạt động thăm dò và giám sát dưới nước chính xác và hiệu quả hơn.

Sau đây là những lợi ích tiềm năng khi sử dụng SAM 2 để phân tích hình ảnh sonar:

  • Hiệu quả : Giảm thời gian và công sức cần thiết cho phân đoạn thủ công, cho phép các chuyên gia tập trung nhiều hơn vào việc phân tích và ra quyết định.
  • Tính nhất quán: Cung cấp kết quả phân đoạn nhất quán và có thể tái tạo, rất cần thiết cho nghiên cứu và giám sát biển quy mô lớn.
  • Tính linh hoạt: Có khả năng xử lý nhiều loại hình ảnh sonar, hữu ích cho nhiều ứng dụng khác nhau trong khoa học biển và công nghiệp.

Bằng cách tích hợp SAM 2 vào quy trình chụp ảnh sonar, ngành công nghiệp hàng hải có thể đạt được hiệu quả, độ chính xác và độ tin cậy cao hơn trong thăm dò và phân tích dưới nước, cuối cùng dẫn đến kết quả tốt hơn trong nghiên cứu biển.

Sử dụng SAM 2 trong xe tự hành

Một ứng dụng khác của SAM 2 là trong xe tự hành . SAM 2 có thể xác định chính xác các đối tượng như người đi bộ, các phương tiện khác, biển báo đường bộ và chướng ngại vật theo thời gian thực. Mức độ chi tiết mà SAM 2 có thể cung cấp là điều cần thiết để đưa ra quyết định điều hướng an toàn và tránh va chạm. Bằng cách xử lý dữ liệu trực quan một cách chính xác, SAM 2 giúp tạo ra bản đồ chi tiết và đáng tin cậy về môi trường và dẫn đến việc ra quyết định tốt hơn.

__wf_reserved_thừa kế
Hình 4. Sử dụng phân đoạn để hiểu lưu lượng truy cập. 

Khả năng hoạt động tốt trong các điều kiện ánh sáng, thời tiết thay đổi và môi trường năng động khác nhau của SAM 2 khiến nó trở nên đáng tin cậy đối với xe tự hành. Cho dù đó là đường phố đông đúc hay đường cao tốc sương mù, SAM 2 đều có thể xác định và phân đoạn chính xác các đối tượng để xe có thể phản ứng chính xác với nhiều tình huống khác nhau. 

Tuy nhiên, có một số hạn chế cần lưu ý. Đối với các vật thể phức tạp, chuyển động nhanh, đôi khi SAM 2 có thể bỏ lỡ các chi tiết nhỏ và dự đoán của nó có thể trở nên không ổn định trên các khung hình. Ngoài ra, đôi khi SAM 2 có thể nhầm lẫn nhiều vật thể trông giống nhau trong các cảnh đông đúc. Những thách thức này là lý do tại sao việc tích hợp các cảm biến và công nghệ bổ sung lại đóng vai trò quan trọng trong các ứng dụng lái xe tự động.

Giám sát môi trường với sự trợ giúp của SAM 2

Giám sát môi trường bằng thị giác máy tính có thể rất khó khăn, đặc biệt là khi thiếu dữ liệu chú thích, nhưng đó cũng là điều khiến nó trở thành một ứng dụng thú vị cho SAM 2. SAM 2 có thể được sử dụng để theo dõi và phân tích những thay đổi trong cảnh quan thiên nhiên bằng cách phân đoạn chính xác và xác định các đặc điểm môi trường khác nhau như rừng, vùng nước, khu vực đô thị và đất nông nghiệp từ hình ảnh vệ tinh hoặc máy bay không người lái. Cụ thể, phân đoạn chính xác giúp theo dõi tình trạng phá rừng , đô thị hóa và những thay đổi trong việc sử dụng đất theo thời gian để cung cấp dữ liệu có giá trị cho việc bảo tồn và quy hoạch môi trường .

__wf_reserved_thừa kế
Hình 5. Một ví dụ về việc sử dụng phân đoạn để theo dõi nạn phá rừng.

Sau đây là một số lợi ích của việc sử dụng mô hình như SAM 2 để phân tích những thay đổi về môi trường theo thời gian:

  • Phát hiện sớm: Xác định các dấu hiệu sớm của sự suy thoái môi trường, cho phép can thiệp kịp thời để ngăn ngừa thiệt hại thêm.
  • Quản lý tài nguyên: Hỗ trợ quản lý tài nguyên thiên nhiên hiệu quả bằng cách cung cấp thông tin chi tiết về tình trạng của nhiều đặc điểm môi trường khác nhau.
  • Bảo tồn đa dạng sinh học: Giúp theo dõi động vật hoang dã và giám sát đa dạng sinh học, góp phần vào nỗ lực bảo tồn và bảo vệ các loài có nguy cơ tuyệt chủng.
  • Ứng phó thảm họa: Hỗ trợ đánh giá tác động của các thảm họa thiên nhiên như lũ lụt, cháy rừng và bão, cho phép ứng phó thảm họa và lập kế hoạch phục hồi nhanh chóng và hiệu quả.

Chỉnh sửa video bằng SAM 2: Hãy tự mình thử nghiệm

Bản demo Segment Anything 2 là một cách tuyệt vời để thử nghiệm mô hình trên video. Sử dụng khả năng PVS của SAM 2, chúng tôi đã lấy một video YouTube cũ của Ultralytics và có thể phân đoạn ba đối tượng hoặc người trong video và tạo điểm ảnh cho chúng. Theo truyền thống, việc chỉnh sửa ba cá nhân ra khỏi video như vậy sẽ tốn thời gian và tẻ nhạt và yêu cầu che dấu thủ công từng khung hình. Tuy nhiên, SAM 2 đơn giản hóa quy trình này. Chỉ cần vài cú nhấp chuột vào bản demo, bạn có thể bảo vệ danh tính của ba đối tượng quan tâm chỉ trong vài giây.

__wf_reserved_thừa kế
Hình 6. Thử nghiệm bản demo SAM 2. 

Bản demo cũng cho phép bạn thử một vài hiệu ứng hình ảnh khác nhau, như chiếu đèn rọi vào các đối tượng bạn chọn để theo dõi và xóa các đối tượng đang được theo dõi. Nếu bạn thích bản demo và đã sẵn sàng bắt đầu đổi mới với SAM 2, hãy xem trang tài liệu mô hình SAM 2 của Ultralytics để biết hướng dẫn chi tiết về cách thực hành với mô hình. Khám phá các tính năng, bước cài đặt và ví dụ để tận dụng tối đa tiềm năng của SAM 2 trong các dự án của bạn!

Kết thúc

Mô hình Segment Anything Model 2 (SAM 2) của Meta AI đang chuyển đổi phân đoạn video và hình ảnh. Khi các tác vụ như theo dõi đối tượng được cải thiện, chúng ta đang khám phá ra những cơ hội mới trong chỉnh sửa video, thực tế hỗn hợp, nghiên cứu khoa học và hình ảnh y tế. Bằng cách làm cho các tác vụ phức tạp trở nên dễ dàng hơn và tăng tốc chú thích, SAM 2 đã sẵn sàng trở thành một công cụ quan trọng cho cộng đồng AI. Khi chúng ta tiếp tục khám phá và đổi mới với các mô hình như SAM 2, chúng ta có thể mong đợi nhiều ứng dụng và tiến bộ đột phá hơn nữa trong nhiều lĩnh vực khác nhau!

Tìm hiểu thêm về AI bằng cách khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi . Hãy xem các trang giải pháp của chúng tôi để biết thông tin chi tiết về AI trong sản xuấtchăm sóc sức khỏe . 🚀

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard