Khám phá cách nền tảng AI liên kết các khái niệm trừu tượng với dữ liệu thực tế, nâng cao ngữ cảnh, độ chính xác và độ tin cậy trong các ứng dụng động.
Grounding (tiếp đất) là một nhiệm vụ trong trí tuệ nhân tạo liên quan đến việc kết nối, hay "tiếp đất", các khái niệm được diễn đạt bằng ngôn ngữ tự nhiên với dữ liệu tương ứng ở các phương thức khác, phổ biến nhất là dữ liệu trực quan như hình ảnh hoặc video. Nói một cách đơn giản, đó là việc dạy máy hiểu cụm từ như "con chó bắt đĩa bay" ám chỉ điều gì trong một hình ảnh cụ thể. Điều này vượt ra ngoài khả năng nhận dạng đơn thuần bằng cách liên kết các mô tả ngôn ngữ với các đối tượng, thuộc tính và mối quan hệ cụ thể trong thế giới nhận thức. Grounding là một khả năng quan trọng để tạo ra các hệ thống AI có thể tương tác với thế giới theo cách giống con người hơn, thu hẹp khoảng cách giữa ngôn ngữ trừu tượng và đầu vào cảm giác cụ thể. Đây là một thành phần quan trọng của các mô hình đa phương thức tiên tiến tích hợp cả Xử lý ngôn ngữ tự nhiên (NLP) và Thị giác máy tính (CV) .
Các mô hình nền tảng được đào tạo trên các tập dữ liệu lớn, ghép nối hình ảnh với mô tả văn bản. Những mô tả này thường chứa các cụm từ chi tiết liên kết đến các khu vực hoặc đối tượng cụ thể trong hình ảnh, đôi khi được xác định bằng các hộp giới hạn. Mô hình, thường sử dụng kiến trúc dựa trên Transformer , học cách tạo các biểu diễn số phong phú, hay còn gọi là nhúng , cho cả văn bản và hình ảnh. Sau đó, nó học cách căn chỉnh các nhúng này, sao cho biểu diễn của cụm từ "tòa nhà cao tầng bên phải" khớp chặt chẽ với biểu diễn của vùng pixel tương ứng trong hình ảnh. Quá trình này là nền tảng của Bài toán Nền tảng Biểu tượng (Symbol Grounding Problem ), một thách thức về mặt triết học và kỹ thuật liên quan đến cách các biểu tượng (từ) có được ý nghĩa của chúng. Các mô hình hiện đại như YOLO-World đang tiên phong trong việc phát hiện từ vựng mở, một ứng dụng thực tế của các nguyên tắc nền tảng.
Việc nối đất cho phép thực hiện các ứng dụng phức tạp đòi hỏi sự hiểu biết sâu sắc về các cảnh trực quan.
Điều quan trọng là phải phân biệt nối đất với các nhiệm vụ thị giác máy tính khác.
Việc phát triển các mô hình nền tảng mạnh mẽ đặt ra một số thách thức. Tính mơ hồ và phong phú vốn có của ngôn ngữ con người rất khó mô hình hóa. Việc tạo ra các tập dữ liệu quy mô lớn, được chú thích chính xác cần thiết rất tốn kém và đòi hỏi nhiều công sức; ví dụ bao gồm các tập dữ liệu như RefCOCO . Hơn nữa, tài nguyên tính toán cần thiết để huấn luyện các mô hình phức tạp này có thể rất lớn, thường yêu cầu huấn luyện phân tán hoặc huấn luyện đám mây mở rộng. Một rào cản quan trọng khác là đảm bảo các mô hình có thể hoạt động hiệu quả cho suy luận thời gian thực .
Nghiên cứu trong tương lai, thường được công bố trên các nền tảng như arXiv , tập trung vào việc cải thiện hiệu suất thông qua các kỹ thuật như học không-cú-nào để khái quát hóa tốt hơn các mô tả đối tượng chưa được biết đến. Các tổ chức như Viện Allen về AI (AI2) đang tích cực nghiên cứu các lĩnh vực này. Khi công nghệ nền tảng phát triển, nó sẽ cho phép sự hợp tác giữa con người và AI tự nhiên hơn và đưa các hệ thống AI đến gần hơn với sự hiểu biết thực sự, có thể hành động về thế giới.