Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

Các ứng dụng của Segment Anything Model 2 (SAM 2) từ Meta AI

Hãy cùng chúng tôi đi sâu vào Segment Anything Model 2 (SAM 2) của Meta AI và tìm hiểu các ứng dụng thời gian thực mà nó có thể được sử dụng trong nhiều ngành công nghiệp khác nhau.

ABAbirami Vina
5 min read
Các ứng dụng của Segment Anything Model 2 (SAM 2) từ Meta AI

Vào ngày 29 tháng 7 năm 2024, Meta AI đã phát hành phiên bản thứ hai của Segment Anything Model, SAM 2. Model mới này có thể xác định chính xác các pixel thuộc về một đối tượng mục tiêu trong cả hình ảnh và video! Điểm tuyệt vời nhất là model có khả năng theo dõi đối tượng trên tất cả các khung hình của video một cách nhất quán theo thời gian thực. SAM 2 mở ra những khả năng thú vị cho việc chỉnh sửa video, trải nghiệm thực tế hỗn hợp và tăng tốc độ chú giải dữ liệu hình ảnh để huấn luyện các hệ thống computer vision.

Tiếp nối thành công của SAM bản gốc, vốn đã được ứng dụng trong các lĩnh vực như khoa học biển, hình ảnh vệ tinh và y tế, SAM 2 giải quyết các thách thức như đối tượng di chuyển nhanh và sự thay đổi về ngoại quan. Độ chính xác và hiệu suất được cải thiện biến nó thành một công cụ linh hoạt cho nhiều ứng dụng. Trong bài viết này, chúng tôi sẽ tập trung vào những lĩnh vực mà SAM 2 có thể được áp dụng và lý do tại sao nó quan trọng đối với cộng đồng AI.

Link to this sectionSAM 2 là gì?#

Segment Anything Model 2 là một foundation model tiên tiến hỗ trợ promptable visual segmentation hay PVS trong cả hình ảnh và video. PVS là kỹ thuật trong đó một model có thể segment hoặc nhận diện các phần khác nhau của hình ảnh hoặc video dựa trên các prompt hoặc đầu vào cụ thể từ người dùng. Các prompt này có thể là các cú nhấp chuột, khung hình hoặc mask nhằm làm nổi bật vùng cần quan tâm. Sau đó, model sẽ tạo ra một segmentation mask bao quanh khu vực được chỉ định.

Kiến trúc của SAM 2 được xây dựng dựa trên SAM gốc bằng cách mở rộng từ phân đoạn hình ảnh sang cả phân đoạn video. Nó sở hữu một bộ giải mã mask (mask decoder) gọn nhẹ, sử dụng dữ liệu hình ảnh và các prompt để tạo ra các segmentation mask. Đối với video, SAM 2 giới thiệu một hệ thống bộ nhớ (memory system) giúp nó ghi nhớ thông tin từ các khung hình trước đó, đảm bảo khả năng theo dõi chính xác theo thời gian. Hệ thống bộ nhớ này bao gồm các thành phần lưu trữ và truy xuất chi tiết về các đối tượng đang được phân đoạn. SAM 2 cũng có thể xử lý các trường hợp bị che khuất, theo dõi đối tượng qua nhiều khung hình và quản lý các prompt mơ hồ bằng cách tạo ra nhiều mask khả thi. Kiến trúc tiên tiến của SAM 2 giúp nó đạt hiệu suất cao trong cả môi trường hình ảnh tĩnh và động.

Cụ thể, đối với phân đoạn video, SAM 2 đạt độ chính xác cao hơn với lượng tương tác của người dùng ít hơn ba lần so với các phương pháp trước đây. Đối với phân đoạn hình ảnh, SAM 2 vượt trội hơn Segment Anything Model (SAM) gốc, với tốc độ nhanh gấp sáu lần và chính xác hơn. Cải tiến này đã được trình bày trong bài báo nghiên cứu về SAM 2 trên 37 bộ dữ liệu khác nhau, bao gồm 23 bộ dữ liệu mà SAM đã được thử nghiệm trước đó.

So sánh SAM và SAM 2

Hình 1. So sánh SAM và SAM 2.

Thú vị là SAM 2 của Meta AI đã được phát triển bằng cách tạo ra dataset phân đoạn video lớn nhất từ trước đến nay, bộ dữ liệu SA-V. Bộ dữ liệu quy mô lớn này bao gồm hơn 50.000 video và 35,5 triệu segmentation mask, được thu thập thông qua sự đóng góp tương tác từ người dùng. Các annotator đã cung cấp các prompt và chỉnh sửa để giúp model học hỏi từ nhiều kịch bản và loại đối tượng đa dạng.

Link to this sectionCác ứng dụng của Segment Anything Model 2#

Nhờ khả năng tiên tiến trong việc phân đoạn hình ảnh và video, SAM 2 có thể được sử dụng trong nhiều ngành công nghiệp. Hãy cùng khám phá một số ứng dụng này.

Link to this sectionSAM 2 thúc đẩy Augmented Reality (AR) và Virtual Reality (VR)#

Model phân đoạn mới của Meta AI có thể được sử dụng cho các ứng dụng Augmented Reality (AR) và Virtual Reality (VR). Ví dụ, SAM 2 có thể xác định và phân đoạn chính xác các đối tượng trong thế giới thực, giúp việc tương tác với các đối tượng ảo trở nên chân thực hơn. Điều này có thể hữu ích trong nhiều lĩnh vực như gaming, giáo dục và đào tạo, nơi sự tương tác thực tế giữa các yếu tố ảo và thực là rất cần thiết.

Với các thiết bị như kính AR ngày càng trở nên tiên tiến, các khả năng của SAM 2 có thể sớm được tích hợp vào chúng. Hãy tưởng tượng khi bạn đeo kính và nhìn quanh phòng khách. Khi chiếc kính phân đoạn và nhận diện bát nước của thú cưng, nó có thể nhắc bạn đổ thêm nước, như hình minh họa bên dưới. Hoặc nếu bạn đang nấu một công thức mới, chiếc kính có thể nhận diện các nguyên liệu trên mặt bếp và cung cấp hướng dẫn từng bước cùng các mẹo nhỏ, giúp cải thiện trải nghiệm nấu ăn và đảm bảo bạn luôn có sẵn các vật dụng cần thiết.

SAM 2 có thể sớm được sử dụng trên kính AR

Hình 2. SAM 2 có thể sớm được sử dụng trên kính AR.

Link to this sectionHình ảnh sonar với Segment Anything Model 2#

Nghiên cứu sử dụng model SAM đã cho thấy nó có thể được áp dụng trong các lĩnh vực chuyên biệt như hình ảnh sonar. Hình ảnh sonar đi kèm với những thách thức độc đáo do độ phân giải thấp, mức độ nhiễu cao và hình dạng phức tạp của các đối tượng trong ảnh. Bằng cách fine-tuning SAM cho hình ảnh sonar, các nhà nghiên cứu đã chứng minh khả năng phân đoạn chính xác các đối tượng dưới nước khác nhau như rác thải biển, cấu trúc địa chất và các vật thể đáng quan tâm khác. Hình ảnh dưới nước chính xác và đáng tin cậy có thể được sử dụng trong nghiên cứu biển, khảo cổ học dưới nước, quản lý nghề cá và giám sát cho các nhiệm vụ như lập bản đồ môi trường sống, khám phá hiện vật và phát hiện mối đe dọa.

Sử dụng SAM đã tinh chỉnh để phân đoạn ảnh sonar

Hình 3. Một ví dụ về việc sử dụng SAM đã fine-tuned để phân đoạn hình ảnh sonar.

Vì SAM 2 xây dựng dựa trên và cải thiện nhiều thách thức mà SAM gặp phải, nó có tiềm năng nâng cao hơn nữa việc phân tích hình ảnh sonar. Khả năng phân đoạn chính xác của nó có thể hỗ trợ nhiều ứng dụng hàng hải, bao gồm nghiên cứu khoa học và nghề cá. Ví dụ, SAM 2 có thể phác thảo hiệu quả các cấu trúc dưới nước, phát hiện rác thải biển và xác định các đối tượng trong hình ảnh sonar hướng trước, góp phần vào việc khám phá và giám sát dưới nước chính xác và hiệu quả hơn.

Dưới đây là các lợi ích tiềm năng của việc sử dụng SAM 2 để phân tích hình ảnh sonar:

  • Hiệu quả: Giảm thời gian và công sức cần thiết cho việc phân đoạn thủ công, cho phép các chuyên gia tập trung nhiều hơn vào phân tích và ra quyết định.
  • Tính nhất quán: Cung cấp kết quả phân đoạn nhất quán và có thể tái tạo, điều cần thiết cho nghiên cứu và giám sát biển quy mô lớn.
  • Tính linh hoạt: Có khả năng xử lý nhiều loại hình ảnh sonar khác nhau, giúp nó hữu ích cho các ứng dụng đa dạng trong khoa học và công nghiệp hàng hải.

Bằng cách tích hợp SAM 2 vào các quy trình hình ảnh sonar, ngành hàng hải có thể đạt được hiệu suất, độ chính xác và độ tin cậy cao hơn trong việc khám phá và phân tích dưới nước, từ đó dẫn đến kết quả tốt hơn trong nghiên cứu biển.

Link to this sectionSử dụng SAM 2 trong các phương tiện tự lái#

Một ứng dụng khác của SAM 2 là trong phương tiện tự lái. SAM 2 có thể xác định chính xác các đối tượng như người đi bộ, phương tiện khác, biển báo giao thông và chướng ngại vật theo thời gian thực. Mức độ chi tiết mà SAM 2 cung cấp là rất cần thiết để đưa ra các quyết định điều hướng an toàn và tránh va chạm. Bằng cách xử lý dữ liệu hình ảnh một cách chính xác, SAM 2 giúp tạo ra một bản đồ môi trường chi tiết và đáng tin cậy, dẫn đến việc ra quyết định tốt hơn.

Sử dụng phân đoạn để hiểu tình trạng giao thông

Hình 4. Sử dụng phân đoạn để hiểu lưu lượng giao thông.

Khả năng hoạt động tốt trong các điều kiện ánh sáng khác nhau, sự thay đổi thời tiết và môi trường động của SAM 2 khiến nó trở nên đáng tin cậy cho các phương tiện tự lái. Cho dù là trên một đường phố đô thị đông đúc hay một đường cao tốc có sương mù, SAM 2 đều có thể xác định và phân đoạn đối tượng một cách nhất quán và chính xác để phương tiện có thể phản ứng đúng cách với các tình huống khác nhau.

Tuy nhiên, cần lưu ý một số hạn chế. Đối với các đối tượng phức tạp, di chuyển nhanh, SAM 2 đôi khi có thể bỏ lỡ các chi tiết nhỏ và dự đoán của nó có thể trở nên thiếu ổn định giữa các khung hình. Ngoài ra, SAM 2 đôi khi có thể nhầm lẫn nhiều đối tượng trông giống nhau trong các cảnh quay đông đúc. Những thách thức này là lý do tại sao việc tích hợp thêm các cảm biến và công nghệ khác là rất quan trọng trong các ứng dụng lái xe tự động.

Link to this sectionGiám sát môi trường với sự trợ giúp của SAM 2#

Việc giám sát môi trường bằng computer vision có thể khó khăn, đặc biệt là khi thiếu dữ liệu đã được chú giải, nhưng đó cũng là điều làm cho nó trở thành một ứng dụng thú vị cho SAM 2. SAM 2 có thể được sử dụng để theo dõi và phân tích những thay đổi trong cảnh quan tự nhiên bằng cách phân đoạn và xác định chính xác các đặc điểm môi trường khác nhau như rừng, thủy vực, khu vực đô thị và đất nông nghiệp từ hình ảnh vệ tinh hoặc máy bay không người lái. Cụ thể, việc phân đoạn chính xác giúp giám sát nạn phá rừng, quá trình đô thị hóa và những thay đổi trong việc sử dụng đất theo thời gian, nhằm cung cấp dữ liệu giá trị cho bảo tồn môi trường và quy hoạch.

Sử dụng SAM 2 để giám sát môi trường

Dưới đây là một số lợi ích của việc sử dụng model như SAM 2 để phân tích những thay đổi môi trường theo thời gian:

  • Phát hiện sớm: Nhận diện những dấu hiệu đầu tiên của sự suy thoái môi trường, cho phép can thiệp kịp thời để ngăn chặn hư hại thêm.
  • Quản lý tài nguyên: Hỗ trợ quản lý tài nguyên thiên nhiên một cách hiệu quả bằng cách cung cấp thông tin chi tiết về trạng thái của các đặc điểm môi trường khác nhau.
  • Bảo tồn đa dạng sinh học: Giúp theo dõi động vật hoang dã và giám sát đa dạng sinh học, đóng góp vào các nỗ lực bảo tồn và bảo vệ các loài nguy cấp.
  • Phản ứng thiên tai: Hỗ trợ đánh giá tác động của thiên tai như lũ lụt, cháy rừng và bão, cho phép lập kế hoạch phản ứng và phục hồi sau thiên tai nhanh chóng và hiệu quả.

Link to this sectionChỉnh sửa video với SAM 2: Hãy tự mình trải nghiệm#

Segment Anything 2 Demo là một cách tuyệt vời để thử nghiệm model trên video. Sử dụng khả năng PVS của SAM 2, chúng tôi đã sử dụng một video YouTube cũ của Ultralytics và có thể phân đoạn ba đối tượng hoặc người trong video và làm mờ pixel chúng. Theo truyền thống, việc chỉnh sửa ba cá nhân ra khỏi video như vậy sẽ rất tốn thời gian, tẻ nhạt và đòi hỏi việc tạo mask thủ công từng khung hình. Tuy nhiên, SAM 2 đơn giản hóa quy trình này. Với vài cú nhấp chuột trên bản demo, bạn có thể bảo vệ danh tính của ba đối tượng quan tâm chỉ trong vài giây.

Trải nghiệm bản demo SAM 2

Hình 6. Trải nghiệm bản demo SAM 2.

Bản demo cũng cho phép bạn thử một vài hiệu ứng hình ảnh khác nhau, như làm nổi bật (spotlight) các đối tượng bạn chọn để theo dõi và xóa bỏ các đối tượng đang được theo dõi. Nếu bạn thích bản demo và đã sẵn sàng bắt đầu đổi mới với SAM 2, hãy xem trang tài liệu model SAM 2 của Ultralytics để biết hướng dẫn chi tiết về cách thực hành với model. Khám phá các tính năng, các bước cài đặt và ví dụ để tận dụng tối đa tiềm năng của SAM 2 trong các dự án của bạn!

Link to this sectionTóm tắt#

Segment Anything Model 2 (SAM 2) từ Meta AI đang thay đổi cách thức phân đoạn hình ảnh và video. Khi các tác vụ như theo dõi đối tượng ngày càng cải thiện, chúng ta đang khám phá những cơ hội mới trong chỉnh sửa video, thực tế hỗn hợp, nghiên cứu khoa học và chẩn đoán hình ảnh y tế. Bằng cách làm cho các tác vụ phức tạp trở nên dễ dàng hơn và tăng tốc quá trình chú giải, SAM 2 chắc chắn sẽ trở thành một công cụ quan trọng cho cộng đồng AI. Khi chúng ta tiếp tục khám phá và đổi mới với các model như SAM 2, chúng ta có thể mong đợi nhiều ứng dụng đột phá và tiến bộ hơn nữa trong các lĩnh vực khác nhau!

Tìm hiểu thêm về AI bằng cách khám phá kho lưu trữ GitHub và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để biết thêm thông tin chi tiết về AI trong sản xuấty tế. 🚀

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning