Khám phá các mô hình AI mới nhất của Meta FAIR, SAM 2.1 và CoTracker3, cung cấp các khả năng theo dõi và phân đoạn nâng cao cho các ứng dụng đa dạng, thực tế.

Khám phá các mô hình AI mới nhất của Meta FAIR, SAM 2.1 và CoTracker3, cung cấp các khả năng theo dõi và phân đoạn nâng cao cho các ứng dụng đa dạng, thực tế.

Trí tuệ nhân tạo (AI) là một lĩnh vực nghiên cứu gần đây đã trở nên sôi động với sự phấn khích và năng lượng, với những đổi mới và đột phá mới xuất hiện nhanh hơn bao giờ hết. Trong vài tuần qua, nhóm Nghiên cứu AI Cơ bản (FAIR) của Meta đã công bố một bộ công cụ và mô hình nhằm giải quyết các thách thức trong các lĩnh vực khác nhau của AI. Các bản phát hành này bao gồm các bản cập nhật có thể tác động đến các lĩnh vực đa dạng như chăm sóc sức khỏe, robot học và thực tế tăng cường.
Ví dụ: mô hình SAM 2.1 được cập nhật cải thiện phân đoạn đối tượng, giúp dễ dàng xác định và tách biệt các đối tượng trong hình ảnh và video một cách chính xác hơn. Trong khi đó, CoTracker3 tập trung vào theo dõi điểm, giúp theo dõi các điểm trong khung hình video ngay cả khi các đối tượng di chuyển hoặc bị chặn một phần.
Meta cũng đã giới thiệu các phiên bản nhẹ hơn, nhanh hơn của mô hình ngôn ngữ Llama để sử dụng hiệu quả trên thiết bị, cùng với công nghệ cảm biến xúc giác mới cho robot học. Trong bài viết này, chúng ta sẽ phân tích các bản phát hành mới nhất này từ Meta FAIR, xem xét những gì mỗi công cụ cung cấp. Hãy bắt đầu!
Phân đoạn đối tượng, một tác vụ thị giác máy tính quan trọng, giúp bạn có thể xác định và tách biệt các đối tượng riêng biệt trong một hình ảnh hoặc video, giúp bạn dễ dàng phân tích các khu vực cụ thể mà bạn quan tâm. Kể từ khi phát hành, Segment Anything Model 2 (SAM 2) của Meta đã được sử dụng để phân đoạn đối tượng trong các lĩnh vực khác nhau như chẩn đoán hình ảnh y tế và khí tượng học. Dựa trên phản hồi từ cộng đồng, Meta hiện đã giới thiệu SAM 2.1, một phiên bản cải tiến được thiết kế để giải quyết một số thách thức gặp phải với mô hình ban đầu và mang lại hiệu suất tổng thể mạnh mẽ hơn.

SAM 2.1 bao gồm các bản cập nhật để xử lý tốt hơn các đối tượng nhỏ hơn và tương tự về mặt hình ảnh, nhờ các kỹ thuật tăng cường dữ liệu mới. Nó cũng cải thiện cách mô hình xử lý sự che khuất (khi các bộ phận của một đối tượng bị khuất khỏi tầm nhìn) bằng cách huấn luyện nó trên các chuỗi video dài hơn, cho phép nó "ghi nhớ" và nhận dạng các đối tượng theo thời gian, ngay cả khi chúng bị chặn tạm thời. Ví dụ: nếu ai đó đang quay video về một người đi bộ phía sau một cái cây, SAM 2.1 có thể theo dõi người đó khi họ xuất hiện lại ở phía bên kia, sử dụng bộ nhớ về vị trí và chuyển động của đối tượng để lấp đầy những khoảng trống khi chế độ xem bị gián đoạn trong thời gian ngắn.
Cùng với những bản cập nhật này, Meta đã phát hành SAM 2 Developer Suite, cung cấp mã huấn luyện mã nguồn mở và cơ sở hạ tầng demo đầy đủ để các nhà phát triển có thể tinh chỉnh SAM 2.1 bằng dữ liệu của riêng họ và tích hợp nó vào một loạt các ứng dụng.
Một tác vụ thị giác máy tính thú vị khác là theo dõi điểm. Nó liên quan đến việc theo dõi các điểm hoặc tính năng cụ thể trên nhiều khung hình trong một video. Hãy xem xét một video về một người đi xe đạp đang đi dọc theo một đường đua - tính năng theo dõi điểm cho phép mô hình theo dõi các điểm trên người đi xe đạp, như mũ bảo hiểm hoặc bánh xe, ngay cả khi chúng bị chướng ngại vật che khuất trong một khoảnh khắc.
Tính năng theo dõi điểm rất cần thiết cho các ứng dụng như tái tạo 3D, robot học và chỉnh sửa video. Các mô hình truyền thống thường dựa vào các thiết lập phức tạp và bộ dữ liệu tổng hợp lớn, điều này hạn chế hiệu quả của chúng khi áp dụng cho các tình huống thực tế.
Mô hình theo dõi CoTracker3 của Meta giải quyết những hạn chế này bằng cách đơn giản hóa kiến trúc của mô hình. Nó cũng giới thiệu một kỹ thuật gán nhãn giả cho phép mô hình học hỏi từ các video thực tế, chưa được chú thích, giúp CoTracker3 hiệu quả và có khả năng mở rộng hơn để sử dụng thực tế.

Một trong những tính năng nổi bật của CoTracker3 là khả năng xử lý tốt các vật thể bị che khuất. Bằng cách sử dụng cơ chế cross-track attention, một kỹ thuật cho phép mô hình chia sẻ thông tin giữa nhiều điểm được theo dõi, CoTracker3 có thể suy luận vị trí của các điểm bị ẩn bằng cách tham chiếu đến các điểm hiển thị. Nhờ đó, CoTracker3 được thiết kế để hoạt động hiệu quả trong các môi trường động, chẳng hạn như theo dõi một người trong một đám đông.
CoTracker3 cũng cung cấp cả chế độ online và offline. Chế độ online cung cấp khả năng theo dõi theo thời gian thực. Trong khi đó, chế độ offline có thể được sử dụng để theo dõi toàn diện hơn trên toàn bộ chuỗi video, lý tưởng cho các tác vụ như chỉnh sửa video hoặc hoạt hình.
Trong khi SAM 2.1 và CoTracker3 thể hiện những tiến bộ mới nhất của Meta trong lĩnh vực thị giác máy tính, thì cũng có những cập nhật thú vị trong các lĩnh vực AI khác, chẳng hạn như xử lý ngôn ngữ tự nhiên (NLP) và robot học. Hãy cùng xem một số phát triển gần đây khác từ Meta FAIR.
Spirit LM của Meta là một mô hình ngôn ngữ đa phương thức mới, kết hợp khả năng xử lý văn bản và giọng nói, giúp tương tác với AI trở nên tự nhiên hơn. Không giống như các mô hình truyền thống chỉ xử lý văn bản hoặc chỉ xử lý giọng nói, Spirit LM có thể chuyển đổi liền mạch giữa hai phương thức này.
Spirit LM có thể hiểu và tạo ra ngôn ngữ theo những cách tự nhiên hơn. Ví dụ: nó có thể tăng cường khả năng của trợ lý ảo, cho phép họ vừa nghe vừa trả lời bằng ngôn ngữ nói hoặc viết, hoặc hỗ trợ các công cụ hỗ trợ tiếp cận chuyển đổi giữa giọng nói và văn bản.

Hơn nữa, Meta đã phát triển các kỹ thuật để làm cho các mô hình ngôn ngữ lớn hiệu quả hơn. Một trong số đó, được gọi là Layer Skip, giúp giảm nhu cầu tính toán và chi phí năng lượng bằng cách chỉ kích hoạt các layer cần thiết cho một tác vụ nhất định. Điều này đặc biệt hữu ích cho các ứng dụng trên các thiết bị có bộ nhớ và năng lượng hạn chế.
Để đáp ứng nhu cầu triển khai các ứng dụng AI trên các thiết bị như vậy, Meta cũng đã tung ra các phiên bản lượng tử hóa của các mô hình Llama của mình. Các mô hình này được nén để chạy nhanh hơn trên thiết bị di động mà không làm giảm độ chính xác.
Khi các mô hình AI ngày càng lớn hơn và phức tạp hơn, việc tối ưu hóa quy trình huấn luyện của chúng trở nên rất quan trọng. Về tối ưu hóa, Meta đã giới thiệu Meta Lingua, một codebase linh hoạt và hiệu quả giúp việc huấn luyện các mô hình ngôn ngữ lớn trở nên dễ dàng hơn. Thiết kế dạng mô-đun của Meta Lingua cho phép các nhà nghiên cứu nhanh chóng tùy chỉnh và mở rộng quy mô các thử nghiệm của họ.
Các nhà nghiên cứu có thể dành ít thời gian hơn cho việc thiết lập kỹ thuật và có nhiều thời gian hơn cho nghiên cứu thực tế. Codebase này cũng nhẹ và dễ tích hợp, phù hợp cho cả các thử nghiệm nhỏ và các dự án quy mô lớn. Bằng cách loại bỏ những rào cản kỹ thuật này, Meta Lingua giúp các nhà nghiên cứu đạt được tiến bộ nhanh hơn và kiểm tra những ý tưởng mới dễ dàng hơn.

Khi công nghệ điện toán lượng tử tiến bộ, nó mang đến những thách thức mới cho bảo mật dữ liệu. Không giống như máy tính ngày nay, máy tính lượng tử có khả năng giải các phép tính phức tạp nhanh hơn nhiều. Điều này có nghĩa là chúng có khả năng phá vỡ các phương pháp mã hóa hiện đang được sử dụng để bảo vệ thông tin nhạy cảm. Đó là lý do tại sao nghiên cứu trong lĩnh vực này ngày càng trở nên quan trọng - phát triển các phương pháp mới để bảo vệ dữ liệu là điều cần thiết khi chúng ta chuẩn bị cho tương lai của điện toán lượng tử.
Để giải quyết vấn đề này, Meta đã phát triển Salsa, một công cụ nhằm tăng cường bảo mật mật mã hậu lượng tử. Salsa giúp các nhà nghiên cứu kiểm tra các cuộc tấn công do AI điều khiển và xác định các điểm yếu tiềm ẩn, cho phép họ hiểu rõ hơn và giải quyết các lỗ hổng trong hệ thống mật mã. Bằng cách mô phỏng các kịch bản tấn công nâng cao, Salsa cung cấp những hiểu biết có giá trị có thể hướng dẫn sự phát triển của các biện pháp bảo mật mạnh mẽ hơn, linh hoạt hơn cho kỷ nguyên lượng tử.
Công việc mới nhất của Meta trong lĩnh vực robot học tập trung vào việc giúp AI tương tác tự nhiên hơn với thế giới vật chất bằng cách tăng cường khả năng nhận biết xúc giác, sự khéo léo và hợp tác với con người. Đặc biệt, Meta Digit 360 là một cảm biến xúc giác tiên tiến mang lại cho robot cảm giác chạm tinh tế. Các cảm biến này giúp robot phát hiện các chi tiết như kết cấu, áp suất và thậm chí cả hình dạng vật thể. Từ những thông tin chi tiết này, robot có thể xử lý các vật thể với độ chính xác cao hơn; điều này rất quan trọng trong các lĩnh vực như chăm sóc sức khỏe và sản xuất.
Dưới đây là một số tính năng chính mà Meta Digit 360 bao gồm:
Một phần mở rộng của Meta Digit 360 là Meta Digit Plexus, một nền tảng tích hợp nhiều cảm biến xúc giác khác nhau trên một bàn tay robot duy nhất. Thiết lập này cho phép robot xử lý thông tin xúc giác từ nhiều điểm cùng một lúc, tương tự như cách bàn tay con người thu thập dữ liệu cảm giác.

Các bản cập nhật AI mới nhất của Meta, từ những tiến bộ trong thị giác máy tính với SAM 2.1 và CoTracker3 đến những phát triển mới trong mô hình ngôn ngữ và robot học, cho thấy AI đang dần chuyển từ lý thuyết sang các giải pháp thiết thực và có tác động.
Những công cụ này được thiết kế để làm cho AI trở nên dễ thích ứng và hữu ích hơn trong các lĩnh vực khác nhau, hỗ trợ mọi thứ từ phân đoạn hình ảnh phức tạp đến hiểu ngôn ngữ của con người và thậm chí làm việc cùng chúng ta trong không gian vật lý.
Bằng cách ưu tiên khả năng tiếp cận và ứng dụng thực tế, Meta FAIR đang đưa chúng ta đến gần hơn với một tương lai nơi AI có thể giải quyết các thách thức trong thế giới thực và nâng cao cuộc sống hàng ngày của chúng ta một cách ý nghĩa.
Bạn có tò mò về AI không? Hãy tham gia cộng đồng của chúng tôi để biết các thông tin cập nhật và hiểu biết mới nhất, đồng thời xem kho lưu trữ GitHub của chúng tôi. Bạn cũng có thể khám phá cách thị giác máy tính có thể được sử dụng trong các ngành như xe tự lái và nông nghiệp!