Khám phá cách grounding trong AI liên kết các khái niệm trừu tượng với dữ liệu thực tế, tăng cường ngữ cảnh, độ chính xác và độ tin cậy trong các ứng dụng động.
Grounding là một nhiệm vụ trong trí tuệ nhân tạo, liên quan đến việc kết nối, hoặc "grounding", các khái niệm được diễn đạt bằng ngôn ngữ tự nhiên với dữ liệu tương ứng trong các phương thức khác, phổ biến nhất là dữ liệu trực quan như hình ảnh hoặc video. Nói một cách đơn giản, đó là việc dạy một cỗ máy hiểu cụm từ như "con chó bắt đĩa bay" đề cập đến điều gì trong một bức tranh cụ thể. Điều này vượt ra ngoài việc nhận dạng đơn giản bằng cách liên kết các mô tả ngôn ngữ với các đối tượng, thuộc tính và mối quan hệ cụ thể trong thế giới tri giác. Grounding là một khả năng quan trọng để tạo ra các hệ thống AI có thể tương tác với thế giới theo cách giống con người hơn, thu hẹp khoảng cách giữa ngôn ngữ trừu tượng và đầu vào cảm giác cụ thể. Nó là một thành phần quan trọng của các mô hình đa phương thức tiên tiến tích hợp cả Xử lý ngôn ngữ tự nhiên (NLP) và Thị giác máy tính (CV).
Các mô hình Grounding được huấn luyện trên các bộ dữ liệu lớn ghép nối hình ảnh với các mô tả bằng văn bản. Các mô tả này thường chứa các cụm từ chi tiết được liên kết với các khu vực hoặc đối tượng cụ thể trong hình ảnh, đôi khi được xác định bằng bounding box. Mô hình, thường sử dụng kiến trúc dựa trên Transformer, học cách tạo ra các biểu diễn số phong phú, hoặc embedding, cho cả văn bản và hình ảnh. Sau đó, nó học cách căn chỉnh các embedding này, sao cho biểu diễn của cụm từ "tòa nhà cao tầng bên phải" khớp chặt chẽ với biểu diễn của vùng pixel tương ứng trong hình ảnh. Quá trình này là nền tảng cho Bài toán Grounding Ký hiệu, một thách thức triết học và kỹ thuật liên quan đến cách các ký hiệu (từ ngữ) có được ý nghĩa của chúng. Các mô hình hiện đại như YOLO-World đang tiên phong trong việc phát hiện từ vựng mở, đây là một ứng dụng thực tế của các nguyên tắc grounding.
Grounding cho phép các ứng dụng phức tạp đòi hỏi sự hiểu biết sâu sắc về các cảnh trực quan.
Điều quan trọng là phân biệt grounding với các tác vụ thị giác máy tính khác.
Phát triển các mô hình grounding mạnh mẽ đặt ra một số thách thức. Sự mơ hồ và phong phú vốn có của ngôn ngữ loài người rất khó mô hình hóa. Việc tạo ra các bộ dữ liệu được chú thích chính xác, quy mô lớn cần thiết rất tốn kém và tốn nhiều công sức; ví dụ bao gồm các bộ dữ liệu như RefCOCO. Hơn nữa, tài nguyên tính toán cần thiết để huấn luyện các mô hình phức tạp này có thể rất lớn, thường đòi hỏi huấn luyện phân tán hoặc huấn luyện đám mây mở rộng. Đảm bảo các mô hình có thể hoạt động hiệu quả để suy luận theo thời gian thực là một trở ngại quan trọng khác.
Các nghiên cứu trong tương lai, thường được công bố trên các nền tảng như arXiv, tập trung vào việc cải thiện hiệu suất thông qua các kỹ thuật như zero-shot learning để khái quát hóa tốt hơn cho các mô tả đối tượng chưa từng thấy. Các tổ chức như Allen Institute for AI (AI2) đang tích cực nghiên cứu các lĩnh vực này. Khi công nghệ grounding phát triển, nó sẽ cho phép sự hợp tác giữa người và AI trở nên tự nhiên hơn và đưa các hệ thống AI đến gần hơn với sự hiểu biết thực sự, có thể hành động về thế giới.