Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Ứng dụng của Mô hình Phân đoạn Bất kỳ 2 của Meta AI ( SAM 2)

Abirami Vina

5 phút đọc

Ngày 31 tháng 7 năm 2024

Hãy tham gia cùng chúng tôi khi chúng ta khám phá Mô hình Segment Anything 2 của Meta AI ( SAM 2) và hiểu được ứng dụng thời gian thực nào có thể được sử dụng trong nhiều ngành công nghiệp khác nhau.

Vào ngày 29 tháng 7 năm 2024, Meta AI đã phát hành phiên bản thứ hai của Mô hình Phân đoạn Bất kỳ, SAM 2. Mô hình mới có thể xác định chính xác điểm ảnh nào thuộc về đối tượng mục tiêu trong cả hình ảnh và video! Điểm tuyệt vời nhất là mô hình có thể theo dõi đối tượng một cách nhất quán trên tất cả các khung hình của video theo thời gian thực. SAM 2 mở ra những khả năng thú vị cho việc chỉnh sửa video , trải nghiệm thực tế hỗn hợp và chú thích dữ liệu trực quan nhanh hơn để đào tạo hệ thống thị giác máy tính .

Xây dựng trên sự thành công của bản gốc SAM , đã được sử dụng trong các lĩnh vực như khoa học biển , hình ảnh vệ tinh và y học , SAM 2 giải quyết các thách thức như vật thể chuyển động nhanh và thay đổi diện mạo. Độ chính xác và hiệu quả được cải thiện giúp SAM 2 trở thành một công cụ đa năng cho nhiều ứng dụng. Trong bài viết này, chúng ta sẽ tập trung vào những lĩnh vực có thể áp dụng SAM 2 và tầm quan trọng của nó đối với cộng đồng AI.

Là gì SAM 2?

Mô hình Phân đoạn Bất kỳ 2 (Segment Anything Model 2) là một mô hình nền tảng nâng cao hỗ trợ phân đoạn hình ảnh có thể nhắc nhở (PVS) trong cả hình ảnh và video. PVS là một kỹ thuật trong đó mô hình có thể segment hoặc xác định các phần khác nhau của hình ảnh hoặc video dựa trên các gợi ý hoặc thông tin đầu vào cụ thể do người dùng cung cấp. Các gợi ý này có thể ở dạng nhấp chuột, hộp hoặc mặt nạ làm nổi bật khu vực quan tâm. Sau đó, mô hình tạo ra một mặt nạ phân đoạn phác thảo khu vực được chỉ định.

Các SAM 2 kiến trúc xây dựng trên bản gốc SAM bằng cách mở rộng từ phân đoạn hình ảnh sang bao gồm cả phân đoạn video. Nó có bộ giải mã mặt nạ nhẹ sử dụng dữ liệu hình ảnh và nhắc nhở tạo mặt nạ phân đoạn. Đối với video, SAM 2 giới thiệu một hệ thống bộ nhớ giúp ghi nhớ thông tin từ các khung hình trước đó, đảm bảo theo dõi chính xác theo thời gian. Hệ thống bộ nhớ bao gồm các thành phần lưu trữ và nhớ lại thông tin chi tiết về các đối tượng đang được phân đoạn. SAM 2 cũng có thể xử lý được tình trạng tắc nghẽn, track các đối tượng thông qua nhiều khung hình và quản lý các lời nhắc mơ hồ bằng cách tạo ra một số mặt nạ có thể có. SAM Kiến trúc tiên tiến của 2 giúp nó có khả năng hoạt động tốt trong cả môi trường hình ảnh tĩnh và động.

Cụ thể, liên quan đến phân đoạn video, SAM 2 đạt được độ chính xác cao hơn với số lượng tương tác người dùng ít hơn ba lần so với các phương pháp trước đây. Đối với phân đoạn hình ảnh, SAM 2 vượt trội hơn Mô hình Phân đoạn Bất kỳ ( SAM ) ban đầu, nhanh hơn và chính xác hơn gấp sáu lần. Cải tiến này đã được trình bày trong SAM 2 bài báo nghiên cứu trên 37 tập dữ liệu khác nhau, bao gồm 23 tập dữ liệu SAM đã được thử nghiệm trước đó. 

Hình 1. So sánh SAM Và SAM 2.

Thật thú vị, Meta AI SAM Phiên bản 2 được phát triển bằng cách tạo ra bộ dữ liệu phân đoạn video lớn nhất từ trước đến nay, bộ dữ liệu SA-V. Bộ dữ liệu mở rộng này bao gồm hơn 50.000 video và 35,5 triệu mặt nạ phân đoạn, được thu thập thông qua các đóng góp tương tác của người dùng. Các chú thích viên đã cung cấp lời nhắc và chỉnh sửa để giúp mô hình học hỏi từ nhiều tình huống và loại đối tượng khác nhau.

Các ứng dụng của Segment Anything Model 2

Nhờ khả năng tiên tiến trong phân đoạn hình ảnh và video, SAM 2 có thể được sử dụng trong nhiều ngành công nghiệp khác nhau. Hãy cùng khám phá một số ứng dụng này.

SAM 2 cho phép Thực tế tăng cường (AR) và Thực tế ảo (VR)

Mô hình phân khúc mới của Meta AI có thể được sử dụng cho các ứng dụng Thực tế tăng cường (AR) và Thực tế ảo (VR). Ví dụ: SAM 2 có thể xác định chính xác và segment Các vật thể trong thế giới thực và làm cho việc tương tác với các vật thể ảo trở nên chân thực hơn. Nó có thể hữu ích trong nhiều lĩnh vực như trò chơi , giáo dục và đào tạo, nơi mà sự tương tác chân thực giữa các yếu tố ảo và thực là điều cần thiết.

Với các thiết bị như kính AR ngày càng tiên tiến hơn, SAM Khả năng của 2 có thể sớm được tích hợp vào chúng. Hãy tưởng tượng bạn đeo kính và nhìn quanh phòng khách. Khi kính của bạn segment và chú ý đến bát nước của chó, nó có thể nhắc bạn đổ đầy nước, như trong hình bên dưới. Hoặc, nếu bạn đang nấu một món ăn mới, chiếc kính có thể nhận dạng các nguyên liệu trên mặt bàn bếp và cung cấp hướng dẫn cùng mẹo từng bước, giúp cải thiện trải nghiệm nấu nướng của bạn và đảm bảo bạn có sẵn tất cả các vật dụng cần thiết.

Hình 2. SAM 2 có thể sớm được sử dụng trong kính AR.

Hình ảnh sonar với Segment Anything Model 2

Nghiên cứu sử dụng mô hình SAM đã chứng minh rằng nó có thể được áp dụng trong các lĩnh vực chuyên biệt như hình ảnh sonar . Hình ảnh sonar đi kèm với những thách thức đặc biệt do độ phân giải thấp, mức độ nhiễu cao và hình dạng phức tạp của các vật thể trong hình ảnh. Bằng cách tinh chỉnh SAM đối với hình ảnh sonar, các nhà nghiên cứu đã chứng minh khả năng của nó để có được hình ảnh chính xác segment nhiều vật thể dưới nước như rác thải biển, các thành tạo địa chất và các đối tượng quan tâm khác. Hình ảnh dưới nước chính xác và đáng tin cậy có thể được sử dụng trong nghiên cứu biển, khảo cổ học dưới nước, quản lý nghề cá và giám sát cho các nhiệm vụ như lập bản đồ môi trường sống, phát hiện hiện vật và phát hiện mối đe dọa.

Hình 3. Một ví dụ về việc sử dụng tinh chỉnh SAM để phân đoạn hình ảnh sonar.

Từ SAM 2 xây dựng và cải thiện nhiều thách thức SAM Mặt khác, nó có tiềm năng cải thiện hơn nữa khả năng phân tích hình ảnh sonar. Khả năng phân đoạn chính xác của nó có thể hỗ trợ nhiều ứng dụng hàng hải , bao gồm nghiên cứu khoa học và nghề cá. Ví dụ, SAM 2 có thể phác thảo hiệu quả các cấu trúc dưới nước, detect rác thải biển và xác định các vật thể trong hình ảnh sonar hướng tới tương lai, góp phần vào việc thăm dò và giám sát dưới nước chính xác và hiệu quả hơn.

Dưới đây là những lợi ích tiềm năng của việc sử dụng SAM 2 để phân tích hình ảnh sonar:

  • Hiệu quả: Giảm thời gian và công sức cần thiết cho phân đoạn thủ công, cho phép các chuyên gia tập trung nhiều hơn vào phân tích và ra quyết định.
  • Tính nhất quán: Cung cấp kết quả phân vùng nhất quán và có thể tái tạo, điều cần thiết cho nghiên cứu và giám sát biển quy mô lớn.
  • Tính linh hoạt (Versatility): Có khả năng xử lý một loạt các hình ảnh sonar, làm cho nó hữu ích cho các ứng dụng đa dạng trong khoa học và công nghiệp hàng hải.

Bằng cách tích hợp SAM 2 vào quy trình chụp ảnh sonar, ngành công nghiệp hàng hải có thể đạt được hiệu quả, độ chính xác và độ tin cậy cao hơn trong thăm dò và phân tích dưới nước, cuối cùng dẫn đến kết quả tốt hơn trong nghiên cứu biển.

Sử dụng SAM 2 trong xe tự hành

Một ứng dụng khác của SAM 2 là trong xe tự hành . SAM 2 có thể xác định chính xác các đối tượng như người đi bộ, phương tiện khác, biển báo đường bộ và chướng ngại vật theo thời gian thực. Mức độ chi tiết SAM 2 có thể cung cấp những thông tin thiết yếu để đưa ra quyết định điều hướng an toàn và tránh va chạm. Bằng cách xử lý dữ liệu hình ảnh một cách chính xác, SAM 2 giúp tạo ra bản đồ chi tiết và đáng tin cậy về môi trường và đưa ra quyết định tốt hơn.

Hình 4. Sử dụng phân vùng (segmentation) để hiểu rõ hơn về giao thông. 

SAM Khả năng hoạt động tốt trong nhiều điều kiện ánh sáng, thời tiết thay đổi và môi trường năng động của 2 giúp nó trở nên đáng tin cậy đối với xe tự hành. Dù là đường phố đông đúc hay đường cao tốc sương mù, SAM 2 có thể xác định một cách nhất quán và segment các vật thể một cách chính xác để xe có thể phản ứng đúng với nhiều tình huống khác nhau. 

Tuy nhiên, có một số hạn chế cần lưu ý. Đối với các vật thể phức tạp, chuyển động nhanh, SAM 2 đôi khi có thể bỏ sót những chi tiết nhỏ và dự đoán của nó có thể trở nên không ổn định qua các khung hình. Ngoài ra, SAM 2 đôi khi có thể gây nhầm lẫn giữa nhiều vật thể trông giống nhau trong bối cảnh đông đúc. Những thách thức này là lý do tại sao việc tích hợp các cảm biến và công nghệ bổ sung lại đóng vai trò then chốt trong các ứng dụng lái xe tự động.

Giám sát môi trường với sự trợ giúp của SAM 2

Việc giám sát môi trường bằng công nghệ thị giác máy tính có thể rất phức tạp, đặc biệt là khi thiếu dữ liệu chú thích, nhưng đó cũng là lý do khiến nó trở thành một ứng dụng thú vị. SAM 2. SAM 2 có thể được sử dụng để track và phân tích những thay đổi trong cảnh quan thiên nhiên bằng cách phân đoạn và xác định chính xác các đặc điểm môi trường khác nhau như rừng, nguồn nước, khu vực đô thị và đất nông nghiệp từ ảnh vệ tinh hoặc máy bay không người lái. Cụ thể, việc phân đoạn chính xác giúp theo dõi tình trạng phá rừng , đô thị hóa và những thay đổi trong sử dụng đất theo thời gian, cung cấp dữ liệu giá trị cho công tác bảo tồn và quy hoạch môi trường .

Sau đây là một số lợi ích của việc sử dụng một mô hình như SAM 2 để phân tích những thay đổi về môi trường theo thời gian:

  • Phát hiện sớm: Xác định các dấu hiệu ban đầu của suy thoái môi trường, cho phép can thiệp kịp thời để ngăn chặn thiệt hại thêm.
  • Quản lý tài nguyên: Hỗ trợ quản lý hiệu quả tài nguyên thiên nhiên bằng cách cung cấp thông tin chi tiết về trạng thái của các đặc điểm môi trường khác nhau.
  • Bảo tồn đa dạng sinh học (Biodiversity conservation): Giúp theo dõi động vật hoang dã và giám sát đa dạng sinh học, đóng góp vào các nỗ lực bảo tồn và bảo vệ các loài có nguy cơ tuyệt chủng.
  • Ứng phó thảm họa: Hỗ trợ đánh giá tác động của các thảm họa tự nhiên như lũ lụt, cháy rừng và bão, cho phép lập kế hoạch ứng phó và phục hồi sau thảm họa một cách nhanh chóng và hiệu quả.

Chỉnh sửa video với SAM 2: Hãy tự mình thử nhé

Bản demo Segment Anything 2 là một cách tuyệt vời để thử nghiệm mô hình trên video. Sử dụng khả năng PVS của SAM 2, chúng tôi đã lấy một video YouTube cũ Ultralytics và có thể segment ba vật thể hoặc người trong video và tạo điểm ảnh cho chúng. Theo truyền thống, việc chỉnh sửa ba cá nhân ra khỏi một video như vậy sẽ tốn thời gian và công sức, đồng thời đòi hỏi phải che phủ thủ công từng khung hình. Tuy nhiên, SAM Phiên bản 2 đơn giản hóa quy trình này. Chỉ cần vài cú nhấp chuột vào bản demo, bạn có thể bảo vệ danh tính của ba đối tượng quan tâm chỉ trong vài giây.

Hình 6. Thử nghiệm SAM 2 Bản trình diễn. 

Bản demo cũng cho phép bạn thử nghiệm một vài hiệu ứng hình ảnh khác nhau, chẳng hạn như chiếu đèn vào các đối tượng bạn chọn để theo dõi và xóa các đối tượng đang được theo dõi. Nếu bạn thích bản demo và sẵn sàng bắt đầu sáng tạo với SAM 2. Xem trang tài liệu mô hình Ultralytics SAM 2 để biết hướng dẫn chi tiết về cách thực hành với mô hình. Khám phá các tính năng, bước cài đặt và ví dụ để tận dụng tối đa SAM Tiềm năng của 2 trong các dự án của bạn!

Tóm lại

Mô hình phân khúc bất kỳ thứ gì của Meta AI 2 ( SAM 2) đang chuyển đổi phân đoạn video và hình ảnh. Khi các tác vụ như theo dõi đối tượng được cải thiện, chúng ta đang khám phá ra những cơ hội mới trong chỉnh sửa video, thực tế hỗn hợp, nghiên cứu khoa học và hình ảnh y tế. Bằng cách đơn giản hóa các tác vụ phức tạp và tăng tốc chú thích, SAM 2 đã sẵn sàng trở thành một công cụ quan trọng cho cộng đồng AI. Khi chúng tôi tiếp tục khám phá và đổi mới với các mô hình như SAM 2, chúng ta có thể mong đợi nhiều ứng dụng và tiến bộ đột phá hơn nữa trong nhiều lĩnh vực khác nhau!

Tìm hiểu thêm về AI bằng cách khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để biết thông tin chi tiết về AI trong sản xuấtchăm sóc sức khỏe. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí