Cập nhật nghiên cứu AI từ Meta FAIR: SAM 2.1 và CoTracker3
Khám phá các mô hình AI mới nhất của Meta FAIR, SAM 2.1 và CoTracker3, mang đến khả năng phân đoạn và theo dõi nâng cao cho các ứng dụng thực tế đa dạng.

Trí tuệ nhân tạo (AI) là một lĩnh vực nghiên cứu gần đây đang bùng nổ với sự phấn khích và năng lượng, cùng với các đổi mới mới và những bước đột phá xuất hiện nhanh hơn bao giờ hết. Trong vài tuần qua, đội ngũ Fundamental AI Research (FAIR) của Meta đã công bố một loạt công cụ và model nhằm giải quyết các thách thức trong nhiều lĩnh vực AI khác nhau. Những phiên bản phát hành này bao gồm các bản cập nhật có thể tác động đến các lĩnh vực đa dạng như chăm sóc sức khỏe, robotics, và thực tế tăng cường.
Ví dụ, model SAM 2.1 được cập nhật giúp cải thiện object segmentation, giúp việc nhận diện và tách biệt các đối tượng trong hình ảnh và video trở nên chính xác hơn. Trong khi đó, CoTracker3 tập trung vào việc tracking các điểm, hỗ trợ theo dõi các điểm trong các khung hình video ngay cả khi đối tượng di chuyển hoặc bị che khuất một phần.
Meta cũng đã giới thiệu các phiên bản nhẹ hơn, nhanh hơn của Llama language model để sử dụng on-device hiệu quả, cùng với công nghệ cảm biến xúc giác mới cho robotics. Trong bài viết này, chúng ta sẽ phân tích những phiên bản phát hành mới nhất từ Meta FAIR và xem xét những gì mà mỗi công cụ cung cấp. Hãy bắt đầu nào!
Link to this sectionSegment Anything Model nâng cao của Meta: SAM 2.1#
Object segmentation, một computer vision task quan trọng, giúp xác định và tách biệt các đối tượng riêng biệt trong một hình ảnh hoặc video, giúp việc phân tích các khu vực quan tâm cụ thể trở nên dễ dàng hơn. Kể từ khi ra mắt, Segment Anything Model 2 (SAM 2) của Meta đã được sử dụng cho object segmentation trên các lĩnh vực khác nhau như y tế chẩn đoán hình ảnh và khí tượng học. Dựa trên phản hồi từ cộng đồng, Meta hiện đã giới thiệu SAM 2.1, một phiên bản cải tiến được thiết kế để giải quyết một số thách thức gặp phải với model gốc và mang lại hiệu năng tổng thể mạnh mẽ hơn.

Fig 1. Benchmarking hiệu năng model SAM 2.1.
SAM 2.1 bao gồm các bản cập nhật để xử lý tốt hơn các đối tượng nhỏ và có hình dáng tương tự nhau, nhờ vào các kỹ thuật data augmentation mới. Nó cũng cải thiện cách model đối phó với tình trạng che khuất (khi các phần của đối tượng bị ẩn đi) bằng cách huấn luyện trên các chuỗi video dài hơn, cho phép model "ghi nhớ" và nhận diện đối tượng theo thời gian, ngay cả khi chúng bị chặn tạm thời. Ví dụ, nếu ai đó đang quay video về một người đi bộ phía sau một cái cây, SAM 2.1 có thể track người đó khi họ xuất hiện ở phía bên kia, sử dụng bộ nhớ về vị trí của đối tượng và chuyển động để lấp đầy các khoảng trống khi tầm nhìn bị gián đoạn trong giây lát.
Cùng với các bản cập nhật này, Meta đã phát hành SAM 2 Developer Suite, cung cấp mã huấn luyện open-source và cơ sở hạ tầng demo đầy đủ để các lập trình viên có thể fine-tune SAM 2.1 với dữ liệu của riêng họ và tích hợp nó vào nhiều ứng dụng.
Link to this sectionCoTracker3: Model tracking của Meta cùng các tính năng và bản cập nhật#
Một computer vision task thú vị khác là tracking điểm. Nó liên quan đến việc theo dõi các điểm hoặc đặc trưng cụ thể qua nhiều khung hình trong video. Hãy xem xét video về một người đi xe đạp đang di chuyển trên đường đua - point tracking cho phép model theo dõi các điểm trên người đi xe đạp, chẳng hạn như mũ bảo hiểm hoặc bánh xe, ngay cả khi chúng bị vật cản che khuất trong giây lát.
Point tracking là thiết yếu cho các ứng dụng như tái tạo 3D, robotics, và biên tập video. Các model truyền thống thường dựa vào các thiết lập phức tạp và bộ dữ liệu tổng hợp lớn, điều này hạn chế hiệu quả của chúng khi áp dụng vào các tình huống thực tế.
Model tracking CoTracker3 của Meta giải quyết những hạn chế này bằng cách đơn giản hóa kiến trúc của model. Nó cũng giới thiệu một kỹ thuật pseudo-labeling cho phép model học từ các video thực tế chưa được gán nhãn, giúp CoTracker3 hiệu quả và có khả năng mở rộng hơn cho mục đích sử dụng thực tế.

Fig 2. So sánh CoTracker3 với các model tracking khác.
Một trong những tính năng làm cho CoTracker3 trở nên nổi bật là khả năng xử lý tốt tình trạng che khuất. Bằng cách sử dụng cơ chế cross-track attention, một kỹ thuật cho phép model chia sẻ thông tin giữa nhiều điểm được theo dõi, CoTracker3 có thể suy luận vị trí của các điểm bị ẩn bằng cách tham chiếu đến các điểm hiển thị. Nhờ đó, CoTracker3 được thiết kế để mang lại hiệu quả cao trong các môi trường năng động, chẳng hạn như theo dõi một người đi qua một khung cảnh đông đúc.
CoTracker3 cũng cung cấp cả chế độ trực tuyến và ngoại tuyến. Chế độ trực tuyến cung cấp khả năng tracking thời gian thực, trong khi chế độ ngoại tuyến có thể được sử dụng để tracking toàn diện hơn trên toàn bộ chuỗi video, lý tưởng cho các tác vụ như biên tập video hoặc hoạt họa.
Link to this sectionCác cập nhật và nghiên cứu khác từ Meta FAIR#
Trong khi SAM 2.1 và CoTracker3 giới thiệu những tiến bộ mới nhất của Meta trong computer vision, cũng có những cập nhật thú vị trong các lĩnh vực AI khác, chẳng hạn như xử lý ngôn ngữ tự nhiên (NLP) và robotics. Hãy cùng xem qua một số phát triển gần đây khác từ Meta FAIR.
Link to this sectionSpirit LM của Meta: Đổi mới AI trong các Model ngôn ngữ và Đa phương thức#
Spirit LM của Meta là một multimodal language model mới kết hợp các khả năng văn bản và giọng nói, giúp tương tác với AI trở nên tự nhiên hơn. Không giống như các model truyền thống chỉ xử lý văn bản hoặc giọng nói, Spirit LM có thể chuyển đổi mượt mà giữa hai phương thức này.
Spirit LM có thể hiểu và tạo ngôn ngữ theo cách gần giống với con người. Ví dụ, nó có thể nâng cao các trợ lý ảo có khả năng vừa nghe vừa phản hồi bằng ngôn ngữ nói hoặc viết, hoặc hỗ trợ các công cụ hỗ trợ tiếp cận giúp chuyển đổi giữa giọng nói và văn bản.

Fig 3. Ví dụ về Text-to-Speech sử dụng Meta Spirit LM.
Hơn nữa, Meta đã phát triển các kỹ thuật để làm cho các model ngôn ngữ lớn trở nên hiệu quả hơn. Một trong số đó, được gọi là Layer Skip, giúp giảm nhu cầu tính toán và chi phí năng lượng bằng cách chỉ kích hoạt các lớp cần thiết cho một tác vụ nhất định. Điều này đặc biệt hữu ích cho các ứng dụng trên thiết bị có bộ nhớ và công suất hạn chế.
Để tiến xa hơn trong nhu cầu triển khai các ứng dụng AI trên các thiết bị như vậy, Meta cũng đã tung ra các phiên bản quantized của Llama models. Các model này được nén lại để chạy nhanh hơn trên thiết bị di động mà không làm giảm độ chính xác.
Link to this sectionMột cái nhìn về tương lai của tối ưu hóa với Meta Lingua#
Khi các AI models ngày càng phát triển về quy mô và độ phức tạp, việc tối ưu hóa quy trình training đã trở nên vô cùng quan trọng. Liên quan đến optimization, Meta đã giới thiệu Meta Lingua, một cơ sở mã linh hoạt và hiệu quả giúp đơn giản hóa việc huấn luyện các large language models. Thiết kế mô-đun của Meta Lingua cho phép các researchers tùy chỉnh và mở rộng quy mô thử nghiệm của họ một cách nhanh chóng.
Các nhà nghiên cứu có thể dành ít thời gian hơn cho việc thiết lập kỹ thuật và nhiều thời gian hơn cho nghiên cứu thực tế. Codebase này cũng nhẹ và dễ dàng tích hợp, làm cho nó phù hợp cho cả các thử nghiệm nhỏ và các dự án quy mô lớn. Bằng cách loại bỏ những rào cản kỹ thuật này, Meta Lingua giúp các nhà nghiên cứu đạt được tiến bộ nhanh hơn và kiểm tra những ý tưởng mới với sự thuận tiện hơn.

Fig 4. Tổng quan về Meta Lingua.
Link to this sectionCác cải tiến của Meta về bảo mật AI#
Khi công nghệ máy tính lượng tử phát triển, nó mang đến những thách thức mới cho bảo mật dữ liệu. Không giống như các máy tính ngày nay, có khả năng các máy tính lượng tử sẽ có thể giải quyết các phép tính phức tạp nhanh hơn nhiều. Điều này có nghĩa là chúng có khả năng phá vỡ các phương pháp mã hóa hiện đang được sử dụng để bảo vệ thông tin nhạy cảm. Đó là lý do tại sao nghiên cứu trong lĩnh vực này ngày càng trở nên quan trọng - phát triển các phương pháp mới để bảo vệ dữ liệu là điều cần thiết khi chúng ta chuẩn bị cho tương lai của điện toán lượng tử.
Để giải quyết vấn đề này, Meta đã phát triển Salsa, một công cụ nhằm tăng cường bảo mật mật mã hậu lượng tử. Salsa giúp các nhà nghiên cứu kiểm tra các cuộc tấn công dựa trên AI và xác định các điểm yếu tiềm ẩn, cho phép họ hiểu rõ hơn và giải quyết các lỗ hổng trong các hệ thống mật mã. Bằng cách mô phỏng các kịch bản tấn công nâng cao, Salsa cung cấp những hiểu biết có giá trị để hướng dẫn việc phát triển các biện pháp bảo mật mạnh mẽ và kiên cường hơn cho kỷ nguyên lượng tử.
Link to this sectionAI tại Meta: Những đổi mới mới nhất trong robotics#
Công việc mới nhất của Meta trong lĩnh vực robotics tập trung vào việc giúp AI tương tác tự nhiên hơn với thế giới vật lý bằng cách tăng cường nhận thức xúc giác, sự khéo léo và sự hợp tác với con người. Đặc biệt, Meta Digit 360 là một cảm biến xúc giác tiên tiến mang lại cho robot khả năng chạm tinh tế. Các cảm biến này giúp robot phát hiện các chi tiết như kết cấu, áp lực và thậm chí cả hình dạng đối tượng. Từ những hiểu biết này, robot có thể xử lý các đối tượng với độ chính xác cao hơn; một điều cực kỳ quan trọng trong các lĩnh vực như chăm sóc sức khỏe và sản xuất.
Dưới đây là một số tính năng chính mà Meta Digit 360 bao gồm:
- Nó được trang bị 18 tính năng cảm biến riêng biệt để có thể nắm bắt được nhiều chi tiết xúc giác.
- Cảm biến có thể phát hiện những thay đổi áp lực nhỏ tới 1 millinewton, cho phép robot phản ứng với các kết cấu tinh tế và các chuyển động nhỏ.
- Nó bao gồm hơn 8 triệu taxels (các điểm cảm biến nhỏ) trên khắp bề mặt đầu ngón tay, cung cấp bản đồ có độ phân giải cao về thông tin xúc giác.
Một phần mở rộng của Meta Digit 360 là Meta Digit Plexus, một nền tảng tích hợp các cảm biến chạm khác nhau lên một bàn tay robot duy nhất. Thiết lập này cho phép robot xử lý thông tin xúc giác từ nhiều điểm cùng một lúc, tương tự như cách bàn tay con người thu thập dữ liệu cảm giác.

Fig 5. Nền tảng Meta Digit Plexus.
Link to this sectionThiết lập nền móng cho chương tiếp theo của AI#
Các cập nhật AI mới nhất của Meta, từ những tiến bộ trong computer vision với SAM 2.1 và CoTracker3 đến các phát triển mới trong các model ngôn ngữ và robotics, cho thấy AI đang dần chuyển từ lý thuyết sang các giải pháp thiết thực và có tác động.
Các công cụ này được thiết kế để làm cho AI trở nên thích ứng và hữu ích hơn trong các lĩnh vực khác nhau, hỗ trợ mọi thứ từ việc phân đoạn hình ảnh phức tạp đến việc hiểu ngôn ngữ con người và thậm chí làm việc cùng chúng ta trong các không gian vật lý.
Bằng cách ưu tiên khả năng tiếp cận và ứng dụng thực tế, Meta FAIR đang đưa chúng ta đến gần hơn với một tương lai nơi AI có thể giải quyết các thách thức thực tế và nâng cao cuộc sống hàng ngày của chúng ta theo những cách có ý nghĩa.
Bạn có tò mò về AI không? Hãy tham gia cộng đồng của chúng tôi để biết các cập nhật và thông tin mới nhất, và xem qua GitHub repository của chúng tôi. Bạn cũng có thể khám phá cách computer vision được sử dụng trong các ngành công nghiệp như xe tự lái và nông nghiệp!






