Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

Khám phá SAM 3: Mô hình Segment Anything mới của Meta AI

Abirami Vina

5 phút đọc

Ngày 21 tháng 11 năm 2025

Tìm hiểu cách SAM 3, Mô hình phân đoạn bất kỳ mới của Meta AI, giúp phát hiện, phân đoạn và theo dõi các đối tượng trên hình ảnh và video trong thế giới thực một cách dễ dàng.

Vào ngày 19 tháng 11 năm 2025, Meta AI đã phát hành Segment Anything Model 3 , còn được gọi là SAM 3. Phiên bản mới nhất của Segment Anything Model này giới thiệu những cách mới để phát hiện, phân đoạn và theo dõi các đối tượng trong hình ảnh và video thực tế bằng cách sử dụng lời nhắc văn bản, lời nhắc trực quan và ví dụ hình ảnh.

Mô hình SAM 3 được xây dựng dựa trên SAMSAM 2 , mang đến những cải tiến và tính năng mới như phân đoạn khái niệm, phát hiện từ vựng mở và theo dõi video theo thời gian thực. Nó có thể hiểu các cụm danh từ ngắn, theo dõi đối tượng trên nhiều khung hình và nhận diện các khái niệm chi tiết hoặc hiếm mà các mô hình trước đó không thể xử lý một cách nhất quán.

Là một phần của bản phát hành SAM 3, Meta cũng giới thiệu SAM 3D . Bộ mô hình thế hệ tiếp theo này tái tạo các vật thể, cảnh và toàn bộ cơ thể người từ một hình ảnh duy nhất và mở rộng hệ sinh thái Segment Anything sang lĩnh vực 3D . Những bổ sung này mở ra các ứng dụng mới trong thị giác máy tính , robot, chỉnh sửa phương tiện và quy trình làm việc sáng tạo.

Trong bài viết này, chúng ta sẽ tìm hiểu SAM 3 là gì, điểm khác biệt của nó so với SAM 2, cách thức hoạt động của mô hình và các ứng dụng thực tế của nó. Hãy cùng bắt đầu nhé!

SAM 3 là gì? Cùng tìm hiểu về Mô hình Segment Anything 3 của Meta

SAM 3 là một mô hình thị giác máy tính tiên tiến có thể nhận dạng, phân tách và theo dõi các đối tượng trong hình ảnh và video dựa trên các hướng dẫn đơn giản. Thay vì dựa vào danh sách nhãn cố định, SAM 3 hiểu ngôn ngữ tự nhiên và các tín hiệu trực quan, giúp bạn dễ dàng cho mô hình biết bạn muốn tìm gì.

Ví dụ, với SAM 3, bạn có thể nhập một cụm từ ngắn như "xe buýt trường học màu vàng" hoặc "mèo sọc", nhấp vào một đối tượng hoặc tô sáng một ví dụ trong hình ảnh. Sau đó, mô hình sẽ phát hiện mọi đối tượng phù hợp và tạo ra các mặt nạ phân đoạn rõ ràng (một phác thảo trực quan hiển thị chính xác các pixel nào thuộc về một đối tượng). SAM 3 cũng có thể theo dõi các đối tượng đó trên các khung hình video, giữ cho chúng nhất quán khi chúng di chuyển.

SAM 3D cho phép tái tạo hình ảnh 3D đơn lẻ

Một điểm thú vị khác trong thông báo của Meta AI là SAM 3D, mở rộng dự án Segment Anything sang lĩnh vực 3D . SAM 3D có thể lấy một hình ảnh 2D duy nhất và tái tạo hình dạng, tư thế hoặc cấu trúc của một vật thể hoặc cơ thể người trong không gian ba chiều. Nói cách khác, mô hình có thể ước tính cách một vật thể chiếm giữ không gian ngay cả khi chỉ có một góc nhìn.

SAM 3D được phát hành dưới dạng hai mô hình khác nhau: SAM 3D Objects, tái tạo các vật dụng hàng ngày bằng hình học và kết cấu, và SAM 3D Body, ước tính hình dạng và tư thế cơ thể người từ một hình ảnh duy nhất. Cả hai mô hình đều sử dụng kết quả phân đoạn từ SAM 3 và sau đó tạo ra một hình ảnh 3D phù hợp với hình dáng và vị trí của vật thể trong ảnh gốc.

Hình 1. Ví dụ về việc sử dụng SAM 3D. (Nguồn: Được tạo bằng sân chơi phân khúc bất kỳ của Meta AI)

SAM 3: Các tính năng mới để thống nhất phát hiện, phân đoạn và theo dõi

Sau đây là một số bản cập nhật chính mà SAM 3 giới thiệu nhằm đưa tính năng phát hiện, phân đoạn và theo dõi vào một mô hình thống nhất:

  • Nhiệm vụ phân đoạn khái niệm: Trong SAM và SAM 2, việc phân đoạn đối tượng phụ thuộc vào các gợi ý trực quan như nhấp chuột hoặc hộp. SAM 3 bổ sung khả năng phân đoạn đối tượng dựa trên một cụm từ văn bản ngắn hoặc một hình ảnh mẫu được cắt ra từ hình ảnh. Điều này có nghĩa là mô hình có thể xác định tất cả các trường hợp khớp mà không cần nhấp chuột cho từng trường hợp.
  • Lời nhắc văn bản từ vựng mở: Không giống như các phiên bản trước, SAM 3 có thể diễn giải các cụm từ ngôn ngữ tự nhiên ngắn. Điều này loại bỏ nhu cầu về danh sách nhãn cố định và cho phép mô hình làm việc với các khái niệm cụ thể hơn hoặc ít phổ biến hơn.
  • Một mô hình duy nhất cho phát hiện, phân đoạn và theo dõi: SAM 3 hợp nhất phát hiện, phân đoạn và theo dõi thành một mô hình, loại bỏ nhu cầu sử dụng các hệ thống riêng biệt để tìm kiếm đối tượng, tạo mặt nạ phân đoạn và theo dõi chúng trên các khung hình video. Điều này tạo ra một quy trình làm việc nhất quán và hợp lý hơn cho cả hình ảnh và video. Mặc dù SAM 2 cũng cung cấp một số khả năng theo dõi, SAM 3 mang lại hiệu suất mạnh mẽ và đáng tin cậy hơn đáng kể.
  • Kết quả ổn định hơn trong các cảnh phức tạp: Vì SAM 3 có thể kết hợp văn bản, hình ảnh ví dụ và lời nhắc trực quan nên có thể xử lý các cảnh lộn xộn hoặc lặp lại đáng tin cậy hơn so với các phiên bản trước chỉ dựa vào các cú nhấp chuột trực quan.
Hình 2. SAM 3 giới thiệu khái niệm phân đoạn với các ví dụ về văn bản hoặc hình ảnh. ( Nguồn )

So sánh SAM 3 với SAM 2 và SAM 1

Giả sử bạn đang xem một video về safari với nhiều loài động vật khác nhau và bạn muốn phát hiện và phân đoạn riêng những con voi. Nhiệm vụ này sẽ như thế nào trên các phiên bản SAM khác nhau?

Với SAM, bạn sẽ phải nhấp thủ công vào từng con voi trong mỗi khung hình để tạo mặt nạ phân đoạn. Không có tính năng theo dõi, vì vậy mỗi khung hình mới đều cần nhấp chuột mới.

Với SAM 2, bạn có thể nhấp một lần vào một con voi, lấy mặt nạ của nó, và mô hình sẽ theo dõi chính con voi đó trong suốt video. Tuy nhiên, bạn vẫn cần nhấp chuột riêng nếu muốn phân đoạn nhiều con voi (các đối tượng cụ thể), vì SAM 2 không tự hiểu các danh mục như "voi".

Với SAM 3, quy trình làm việc trở nên đơn giản hơn nhiều. Bạn có thể nhập "voi" hoặc vẽ một khung bao quanh một con voi để làm ví dụ, và mô hình sẽ tự động tìm tất cả các con voi trong video, phân đoạn chúng và theo dõi chúng một cách nhất quán trên các khung hình. Nó vẫn hỗ trợ các lời nhắc nhấp chuột và hộp được sử dụng trong các phiên bản trước, nhưng giờ đây nó còn có thể phản hồi lời nhắc văn bản và hình ảnh mẫu, điều mà SAM và SAM 2 không thể làm được.

Mô hình SAM 3 hoạt động như thế nào

Tiếp theo, chúng ta hãy xem xét kỹ hơn cách thức hoạt động của mô hình SAM 3 và cách nó được đào tạo.

Tổng quan về kiến trúc mô hình của SAM 3

SAM 3 kết hợp nhiều thành phần để hỗ trợ các gợi ý khái niệm và gợi ý trực quan trong một hệ thống duy nhất. Về cơ bản, mô hình này sử dụng Meta Perception Encoder, một bộ mã hóa hình ảnh-văn bản mã nguồn mở thống nhất của Meta. 

Bộ mã hóa này có thể xử lý cả hình ảnh và cụm danh từ ngắn. Nói một cách đơn giản, điều này cho phép SAM 3 liên kết ngôn ngữ và các đặc điểm hình ảnh hiệu quả hơn so với các phiên bản trước của Mô hình Phân đoạn Bất kỳ.

Ngoài bộ mã hóa này, SAM 3 còn bao gồm một bộ phát hiện dựa trên dòng mô hình biến áp DETR. Bộ phát hiện này nhận dạng các vật thể trong hình ảnh và giúp hệ thống xác định vật thể nào tương ứng với yêu cầu của người dùng. 

Cụ thể, đối với phân đoạn video, SAM 3 sử dụng thành phần theo dõi được xây dựng trên ngân hàng bộ nhớ và bộ mã hóa bộ nhớ từ SAM 2. Điều này cho phép mô hình lưu giữ thông tin về các đối tượng trên nhiều khung hình để có thể xác định lại và theo dõi chúng theo thời gian.

Hình 3. Cách phân đoạn bất kỳ thứ gì bằng các khái niệm hoạt động ( Nguồn )

Công cụ dữ liệu có khả năng mở rộng đằng sau Segment Anything Model 3

Để huấn luyện SAM 3, Meta cần nhiều dữ liệu chú thích hơn nhiều so với những gì hiện có trên internet. Mặt nạ phân đoạn và nhãn văn bản chất lượng cao rất khó tạo ở quy mô lớn, và việc phác thảo đầy đủ mọi trường hợp của một khái niệm bằng hình ảnh và video rất chậm và tốn kém. 

Để giải quyết vấn đề này, Meta đã xây dựng một công cụ dữ liệu mới kết hợp SAM 3, các mô hình AI bổ sung và các chú thích viên làm việc cùng nhau. Quy trình làm việc bắt đầu với một chuỗi các hệ thống AI, bao gồm SAM 3 và mô hình chú thích dựa trên Llama

Các hệ thống này quét các bộ sưu tập hình ảnh và video lớn, tạo chú thích, chuyển đổi các chú thích đó thành nhãn văn bản và tạo ra các ứng viên mặt nạ phân đoạn sớm. Sau đó, các chú thích viên là con người và AI sẽ xem xét các ứng viên này. 

Các chú thích viên AI, được đào tạo để đạt được độ chính xác ngang bằng hoặc thậm chí vượt trội hơn con người trong các nhiệm vụ như kiểm tra chất lượng khẩu trang và xác minh phạm vi khái niệm, sẽ lọc ra những trường hợp đơn giản. Con người chỉ can thiệp vào những ví dụ khó hơn mà mô hình có thể vẫn gặp khó khăn.

Hình 4. Công cụ dữ liệu SAM 3 ( Nguồn )

Cách tiếp cận này giúp Meta tăng tốc đáng kể tốc độ chú thích. Bằng cách để AI xử lý các trường hợp dễ dàng, quy trình xử lý sẽ nhanh hơn khoảng năm lần đối với các lời nhắc tiêu cực và nhanh hơn 36% đối với các lời nhắc tích cực trong các miền chi tiết. 

Hiệu quả này cho phép mở rộng tập dữ liệu lên hơn bốn triệu khái niệm độc đáo. Vòng lặp liên tục của các đề xuất AI, hiệu chỉnh của con người và dự đoán mô hình được cập nhật cũng cải thiện chất lượng nhãn theo thời gian và giúp SAM 3 học được một tập hợp rộng hơn nhiều các khái niệm trực quan và văn bản.

Cải tiến hiệu suất của SAM 3

Về hiệu suất, SAM 3 mang lại sự cải thiện rõ rệt so với các mô hình trước đó. Trên chuẩn SA-Co mới của Meta, đánh giá khả năng phát hiện và phân đoạn khái niệm từ vựng mở, SAM 3 đạt hiệu suất gấp đôi so với các hệ thống trước đây về cả hình ảnh và video. 

Nó cũng ngang bằng hoặc vượt trội hơn SAM 2 trong các tác vụ thị giác tương tác như điểm-đến-mặt nạ và mặt nạ-đến-mặt nạ con. Meta báo cáo những cải tiến bổ sung trong các bài đánh giá khó hơn như LVIS không-cú-chớp (trong đó các mô hình phải nhận dạng các danh mục hiếm mà không cần ví dụ huấn luyện) và đếm đối tượng (đo lường xem tất cả các trường hợp của một đối tượng có được phát hiện hay không), làm nổi bật khả năng khái quát hóa mạnh mẽ hơn trên nhiều lĩnh vực. 

Ngoài những cải tiến về độ chính xác này, SAM 3 còn có hiệu quả, xử lý hình ảnh với hơn 100 đối tượng được phát hiện trong khoảng 30 mili giây trên GPU H200 và duy trì tốc độ gần như thời gian thực khi theo dõi nhiều đối tượng trong video.

Ứng dụng của Mô hình Segment Anything 3

Bây giờ chúng ta đã hiểu rõ hơn về SAM 3, hãy cùng tìm hiểu cách sử dụng nó trong các ứng dụng thực tế, từ lập luận hướng dẫn bằng văn bản nâng cao đến nghiên cứu khoa học và các sản phẩm của Meta.

Xử lý các truy vấn văn bản phức tạp bằng SAM 3 Agent

SAM 3 cũng có thể được sử dụng như một công cụ bên trong một mô hình ngôn ngữ đa phương thức lớn hơn, mà Meta gọi là SAM 3 Agent. Thay vì cung cấp cho SAM 3 một cụm từ ngắn gọn như "voi", SAM 3 Agent có thể chia nhỏ một câu hỏi phức tạp thành các câu hỏi nhỏ hơn mà SAM 3 có thể hiểu được. 

Ví dụ, nếu người dùng hỏi: "Vật thể nào trong hình được dùng để điều khiển và dẫn dắt ngựa?", tác nhân sẽ thử các cụm danh từ khác nhau, gửi chúng đến SAM 3 và kiểm tra xem mặt nạ nào có nghĩa. Nó sẽ tiếp tục tinh chỉnh cho đến khi tìm thấy vật thể phù hợp.

Ngay cả khi không được đào tạo trên các tập dữ liệu suy luận đặc biệt, SAM 3 Agent vẫn hoạt động tốt trên các chuẩn được thiết kế cho các truy vấn văn bản phức tạp, chẳng hạn như ReasonSeg và OmniLabel. Điều này cho thấy SAM 3 có thể hỗ trợ các hệ thống cần cả khả năng hiểu ngôn ngữ và phân đoạn hình ảnh chi tiết.

Ứng dụng khoa học và bảo tồn của SAM 3

Điều thú vị là SAM 3 đã được sử dụng trong các bối cảnh nghiên cứu, nơi mà nhãn trực quan chi tiết đóng vai trò quan trọng. Meta đã hợp tác với Conservation X Labs và Osa Conservation để xây dựng SA-FARI, một bộ dữ liệu giám sát động vật hoang dã công cộng với hơn 10.000 video từ bẫy ảnh. 

Mỗi loài động vật trong mỗi khung hình đều được gắn nhãn bằng hộp và mặt nạ phân đoạn, một việc sẽ cực kỳ tốn thời gian nếu chú thích thủ công. Tương tự, trong nghiên cứu đại dương, SAM 3 đang được sử dụng cùng với FathomNet và MBARI để tạo mặt nạ phân đoạn cho hình ảnh dưới nước và hỗ trợ các chuẩn mực đánh giá mới. 

Những tập dữ liệu này giúp các nhà khoa học phân tích cảnh quay video hiệu quả hơn và nghiên cứu các loài động vật và môi trường sống thường khó theo dõi ở quy mô lớn. Các nhà nghiên cứu cũng có thể sử dụng những nguồn tài nguyên này để xây dựng mô hình riêng cho việc nhận dạng loài, phân tích hành vi và giám sát sinh thái tự động.

Meta đang triển khai SAM 3 trên các sản phẩm của mình như thế nào

Ngoài các ứng dụng nghiên cứu, SAM 3 còn hỗ trợ các tính năng và trường hợp sử dụng mới trên các sản phẩm tiêu dùng của Meta. Dưới đây là một số cách SAM 3 đang được tích hợp:

  • Chỉnh sửa trên Instagram: Người sáng tạo có thể áp dụng hiệu ứng cho một người hoặc vật thể cụ thể trong video mà không cần phải chỉnh sửa thủ công từng khung hình.
  • Ứng dụng Meta AI và meta.ai trên web: SAM 3 hỗ trợ các công cụ mới để chỉnh sửa, nâng cao và phối lại hình ảnh và video.
  • Tính năng “Xem trong phòng” của Facebook Marketplace: SAM 3 hoạt động với SAM 3D để cho phép mọi người xem trước đồ nội thất hoặc đồ trang trí trong nhà của họ chỉ bằng một bức ảnh.
  • Kính nghiên cứu Aria Gen 2 : Segment Anything Model 3 giúp phân đoạn và theo dõi bàn tay và vật thể từ góc nhìn thứ nhất, hỗ trợ AR (Thực tế tăng cường), robot và nghiên cứu AI theo ngữ cảnh.

Những điều cần nhớ

SAM 3 là một bước tiến vượt bậc về phân đoạn. Nó giới thiệu khả năng phân đoạn khái niệm, gợi ý văn bản với vốn từ vựng mở và khả năng theo dõi được cải thiện. Với hiệu suất mạnh mẽ hơn đáng kể trên cả hình ảnh và video, cùng với việc bổ sung SAM 3D, bộ mô hình mở ra những khả năng mới cho Vision AI, các công cụ sáng tạo, nghiên cứu khoa học và các sản phẩm thực tế. 

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu thêm về AI. Nếu bạn đang muốn xây dựng dự án Vision AI của riêng mình, hãy xem qua các tùy chọn cấp phép của chúng tôi. Khám phá thêm về các ứng dụng như AI trong chăm sóc sức khỏeVision AI trong bán lẻ bằng cách truy cập trang giải pháp của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí