Nghiên cứu Meta AI: SAM 2.1 & CoTracker3

Trí tuệ nhân tạo (AI) là một lĩnh vực nghiên cứu gần đây đã trở nên sôi động với sự phấn khích và năng lượng, với những đổi mới và đột phá mới xuất hiện nhanh hơn bao giờ hết. Trong vài tuần qua, nhóm Nghiên cứu AI Cơ bản (FAIR) của Meta đã công bố một bộ công cụ và mô hình nhằm giải quyết các thách thức trong các lĩnh vực khác nhau của AI. Các bản phát hành này bao gồm các bản cập nhật có thể tác động đến các lĩnh vực đa dạng như chăm sóc sức khỏe, robot học và thực tế tăng cường.

Ví dụ, bản cập nhật SAM Mô hình 2.1 cải thiện khả năng phân đoạn đối tượng , giúp nhận dạng và tách biệt chính xác các đối tượng trong hình ảnh và video dễ dàng hơn. Trong khi đó, CoTracker3 tập trung vào việc theo dõi điểm, giúp duy trì track của các điểm trong khung hình video ngay cả khi các đối tượng di chuyển hoặc bị chặn một phần.

Meta cũng đã giới thiệu các phiên bản nhẹ hơn, nhanh hơn của mô hình ngôn ngữ Llama để sử dụng hiệu quả trên thiết bị, cùng với công nghệ cảm biến xúc giác mới cho robot học. Trong bài viết này, chúng ta sẽ phân tích các bản phát hành mới nhất này từ Meta FAIR, xem xét những gì mỗi công cụ cung cấp. Hãy bắt đầu!

Mô hình Segment Anything nâng cao của Meta: SAM 2.1

Phân đoạn đối tượng , một nhiệm vụ quan trọng của thị giác máy tính , cho phép xác định và tách biệt các đối tượng riêng biệt trong hình ảnh hoặc video, giúp phân tích các khu vực quan tâm cụ thể dễ dàng hơn. Kể từ khi ra mắt, Mô hình Phân đoạn Bất kỳ 2 ( SAM 2) của Meta đã được sử dụng để phân đoạn đối tượng trong nhiều lĩnh vực khác nhau như hình ảnh y tế và khí tượng học . Dựa trên phản hồi từ cộng đồng, Meta hiện đã giới thiệu SAM 2.1, phiên bản cải tiến được thiết kế để giải quyết một số thách thức gặp phải ở mẫu máy gốc và mang lại hiệu suất tổng thể mạnh mẽ hơn.

__wf_reserved_inherit — Hình 1. SAM 2.1 Đánh giá hiệu suất mô hình.

‍

SAM Phiên bản 2.1 bao gồm các bản cập nhật để xử lý tốt hơn các đối tượng nhỏ hơn và tương tự về mặt hình ảnh, nhờ các kỹ thuật tăng cường dữ liệu mới. Nó cũng cải thiện cách mô hình xử lý hiện tượng che khuất (khi một phần của đối tượng bị ẩn khỏi tầm nhìn) bằng cách huấn luyện nó trên các chuỗi video dài hơn, cho phép nó "ghi nhớ" và nhận dạng các đối tượng theo thời gian, ngay cả khi chúng bị che khuất tạm thời. Ví dụ: nếu ai đó đang quay video một người đi bộ phía sau một cái cây , SAM 2.1 có thể track người đó khi họ xuất hiện trở lại ở phía bên kia, sử dụng trí nhớ về vị trí và chuyển động của vật thể để lấp đầy khoảng trống khi tầm nhìn bị gián đoạn trong giây lát.

Cùng với những bản cập nhật này, Meta đã phát hành SAM 2 Developer Suite, cung cấp mã đào tạo nguồn mở và cơ sở hạ tầng demo đầy đủ để các nhà phát triển có thể tinh chỉnh SAM 2.1 với dữ liệu riêng của họ và tích hợp nó vào một loạt các ứng dụng .

CoTracker3: Mô hình theo dõi của Meta và các tính năng và bản cập nhật của nó

Một nhiệm vụ thị giác máy tính thú vị khác là theo dõi điểm. Nó bao gồm việc theo dõi các điểm hoặc đặc điểm cụ thể trên nhiều khung hình trong một video. Hãy xem xét một video về một người đi xe đạp đang đi dọc theo một con đường. track - Theo dõi điểm cho phép mô hình theo track các điểm trên người đi xe đạp, như mũ bảo hiểm hoặc bánh xe, ngay cả khi chúng bị che khuất bởi chướng ngại vật trong giây lát.

Tính năng theo dõi điểm rất cần thiết cho các ứng dụng như tái tạo 3D, robot học và chỉnh sửa video. Các mô hình truyền thống thường dựa vào các thiết lập phức tạp và bộ dữ liệu tổng hợp lớn, điều này hạn chế hiệu quả của chúng khi áp dụng cho các tình huống thực tế.

Mô hình theo dõi CoTracker3 của Meta giải quyết những hạn chế này bằng cách đơn giản hóa kiến trúc của mô hình. Nó cũng giới thiệu một kỹ thuật gán nhãn giả cho phép mô hình học hỏi từ các video thực tế, chưa được chú thích, giúp CoTracker3 hiệu quả và có khả năng mở rộng hơn để sử dụng thực tế.

‍

Một trong những tính năng nổi bật của CoTracker3 là khả năng xử lý tốt hiện tượng che khuất. Sử dụng track Attention, một kỹ thuật cho phép mô hình chia sẻ thông tin trên nhiều điểm được theo dõi, CoTracker3 có thể suy ra vị trí của các điểm ẩn bằng cách tham chiếu đến các điểm hiển thị. Nhờ đó, CoTracker3 được thiết kế để đạt hiệu quả cao trong các môi trường động, chẳng hạn như theo dõi một người qua một khung cảnh đông đúc.

CoTracker3 cũng cung cấp cả chế độ online và offline. Chế độ online cung cấp khả năng theo dõi theo thời gian thực. Trong khi đó, chế độ offline có thể được sử dụng để theo dõi toàn diện hơn trên toàn bộ chuỗi video, lý tưởng cho các tác vụ như chỉnh sửa video hoặc hoạt hình.

Các cập nhật và nghiên cứu khác từ Meta FAIR

Trong khi SAM Phiên bản 2.1 và CoTracker3 giới thiệu những tiến bộ mới nhất của Meta trong lĩnh vực thị giác máy tính , đồng thời cũng có những cập nhật thú vị trong các lĩnh vực AI khác, chẳng hạn như xử lý ngôn ngữ tự nhiên (NLP) và robot . Hãy cùng điểm qua một số phát triển gần đây khác của Meta FAIR.

Spirit LM của Meta: Đột phá AI trong các Mô hình Ngôn ngữ và Đa phương thức

Spirit LM của Meta là một mô hình ngôn ngữ đa phương thức mới, kết hợp khả năng xử lý văn bản và giọng nói, giúp tương tác với AI trở nên tự nhiên hơn. Không giống như các mô hình truyền thống chỉ xử lý văn bản hoặc chỉ xử lý giọng nói, Spirit LM có thể chuyển đổi liền mạch giữa hai phương thức này.

Spirit LM có thể hiểu và tạo ra ngôn ngữ theo những cách tự nhiên hơn. Ví dụ: nó có thể tăng cường khả năng của trợ lý ảo, cho phép họ vừa nghe vừa trả lời bằng ngôn ngữ nói hoặc viết, hoặc hỗ trợ các công cụ hỗ trợ tiếp cận chuyển đổi giữa giọng nói và văn bản.

‍

Hơn nữa, Meta đã phát triển các kỹ thuật để làm cho các mô hình ngôn ngữ lớn hiệu quả hơn. Một trong số đó, được gọi là Layer Skip, giúp giảm nhu cầu tính toán và chi phí năng lượng bằng cách chỉ kích hoạt các layer cần thiết cho một tác vụ nhất định. Điều này đặc biệt hữu ích cho các ứng dụng trên các thiết bị có bộ nhớ và năng lượng hạn chế.

Để đáp ứng nhu cầu triển khai các ứng dụng AI trên các thiết bị như vậy, Meta cũng đã tung ra các phiên bản lượng tử hóa của các mô hình Llama của mình. Các mô hình này được nén để chạy nhanh hơn trên thiết bị di động mà không làm giảm độ chính xác.

Nhìn vào tương lai của tối ưu hóa với Meta Lingua

Khi các mô hình AI ngày càng lớn hơn và phức tạp hơn, việc tối ưu hóa quy trình huấn luyện của chúng trở nên rất quan trọng. Về tối ưu hóa, Meta đã giới thiệu Meta Lingua, một codebase linh hoạt và hiệu quả giúp việc huấn luyện các mô hình ngôn ngữ lớn trở nên dễ dàng hơn. Thiết kế dạng mô-đun của Meta Lingua cho phép các nhà nghiên cứu nhanh chóng tùy chỉnh và mở rộng quy mô các thử nghiệm của họ.

Các nhà nghiên cứu có thể dành ít thời gian hơn cho việc thiết lập kỹ thuật và có nhiều thời gian hơn cho nghiên cứu thực tế. Codebase này cũng nhẹ và dễ tích hợp, phù hợp cho cả các thử nghiệm nhỏ và các dự án quy mô lớn. Bằng cách loại bỏ những rào cản kỹ thuật này, Meta Lingua giúp các nhà nghiên cứu đạt được tiến bộ nhanh hơn và kiểm tra những ý tưởng mới dễ dàng hơn.

‍

Các cải tiến của Meta trong bảo mật AI

Khi công nghệ điện toán lượng tử tiến bộ, nó mang đến những thách thức mới cho bảo mật dữ liệu. Không giống như máy tính ngày nay, máy tính lượng tử có khả năng giải các phép tính phức tạp nhanh hơn nhiều. Điều này có nghĩa là chúng có khả năng phá vỡ các phương pháp mã hóa hiện đang được sử dụng để bảo vệ thông tin nhạy cảm. Đó là lý do tại sao nghiên cứu trong lĩnh vực này ngày càng trở nên quan trọng - phát triển các phương pháp mới để bảo vệ dữ liệu là điều cần thiết khi chúng ta chuẩn bị cho tương lai của điện toán lượng tử.

Để giải quyết vấn đề này, Meta đã phát triển Salsa, một công cụ nhằm tăng cường bảo mật mật mã hậu lượng tử. Salsa giúp các nhà nghiên cứu kiểm tra các cuộc tấn công do AI điều khiển và xác định các điểm yếu tiềm ẩn, cho phép họ hiểu rõ hơn và giải quyết các lỗ hổng trong hệ thống mật mã. Bằng cách mô phỏng các kịch bản tấn công nâng cao, Salsa cung cấp những hiểu biết có giá trị có thể hướng dẫn sự phát triển của các biện pháp bảo mật mạnh mẽ hơn, linh hoạt hơn cho kỷ nguyên lượng tử.

AI tại Meta: Những đổi mới mới nhất trong robot học

Nghiên cứu mới nhất của Meta về robot tập trung vào việc giúp AI tương tác tự nhiên hơn với thế giới vật lý bằng cách tăng cường nhận thức xúc giác, sự khéo léo và khả năng hợp tác với con người. Đặc biệt, Meta Digit 360 là một cảm biến xúc giác tiên tiến, mang lại cho robot cảm giác xúc giác tinh tế. Các cảm biến này giúp robot detect Các chi tiết như kết cấu, áp suất và thậm chí cả hình dạng vật thể. Nhờ những hiểu biết này, robot có thể xử lý vật thể chính xác hơn; điều này rất quan trọng trong các lĩnh vực như chăm sóc sức khỏe và sản xuất .

Dưới đây là một số tính năng chính mà Meta Digit 360 bao gồm:

Nó được trang bị 18 tính năng cảm biến riêng biệt để có thể thu thập nhiều chi tiết xúc giác.
‍
Cảm biến có thể detect thay đổi áp suất nhỏ tới 1 millinewton, cho phép robot phản ứng với các kết cấu mịn và chuyển động tinh tế.
‍
Nó bao gồm hơn 8 triệu taxel (các điểm cảm biến nhỏ) trên bề mặt đầu ngón tay, cung cấp bản đồ độ phân giải cao về thông tin xúc giác.

Một phần mở rộng của Meta Digit 360 là Meta Digit Plexus, một nền tảng tích hợp nhiều cảm biến xúc giác khác nhau trên một bàn tay robot duy nhất. Thiết lập này cho phép robot xử lý thông tin xúc giác từ nhiều điểm cùng một lúc, tương tự như cách bàn tay con người thu thập dữ liệu cảm giác.

‍

Mở ra chương mới cho AI

Các bản cập nhật AI mới nhất của Meta, bao gồm những tiến bộ trong thị giác máy tính với SAM 2.1 và CoTracker3 cho đến những phát triển mới trong mô hình ngôn ngữ và robot, cho thấy AI đang dần chuyển từ lý thuyết sang các giải pháp thực tế và có tác động.

Những công cụ này được thiết kế để làm cho AI trở nên dễ thích ứng và hữu ích hơn trong các lĩnh vực khác nhau, hỗ trợ mọi thứ từ phân đoạn hình ảnh phức tạp đến hiểu ngôn ngữ của con người và thậm chí làm việc cùng chúng ta trong không gian vật lý.

Bằng cách ưu tiên khả năng tiếp cận và ứng dụng thực tế, Meta FAIR đang đưa chúng ta đến gần hơn với một tương lai nơi AI có thể giải quyết các thách thức trong thế giới thực và nâng cao cuộc sống hàng ngày của chúng ta một cách ý nghĩa.

Bạn có tò mò về AI không? Hãy tham gia cộng đồng của chúng tôi để biết các thông tin cập nhật và hiểu biết mới nhất, đồng thời xem kho lưu trữ GitHub của chúng tôi. Bạn cũng có thể khám phá cách thị giác máy tính có thể được sử dụng trong các ngành như xe tự lái và nông nghiệp!

Cập nhật nghiên cứu AI từ Meta FAIR: SAM 2.1 và CoTracker3

Mô hình Segment Anything nâng cao của Meta: SAM 2.1

CoTracker3: Mô hình theo dõi của Meta và các tính năng và bản cập nhật của nó

Các cập nhật và nghiên cứu khác từ Meta FAIR

Spirit LM của Meta: Đột phá AI trong các Mô hình Ngôn ngữ và Đa phương thức

Nhìn vào tương lai của tối ưu hóa với Meta Lingua

Các cải tiến của Meta trong bảo mật AI

AI tại Meta: Những đổi mới mới nhất trong robot học

Mở ra chương mới cho AI

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai
của AI!

Cập nhật nghiên cứu AI từ Meta FAIR: SAM 2.1 và CoTracker3

Mô hình Segment Anything nâng cao của Meta: SAM 2.1

CoTracker3: Mô hình theo dõi của Meta và các tính năng và bản cập nhật của nó

Các cập nhật và nghiên cứu khác từ Meta FAIR

Spirit LM của Meta: Đột phá AI trong các Mô hình Ngôn ngữ và Đa phương thức

Nhìn vào tương lai của tối ưu hóa với Meta Lingua

Các cải tiến của Meta trong bảo mật AI

AI tại Meta: Những đổi mới mới nhất trong robot học

Mở ra chương mới cho AI

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!