Thuật ngữ

Tiếp địa

Khám phá cách nền tảng AI liên kết các khái niệm trừu tượng với dữ liệu thực tế, nâng cao ngữ cảnh, độ chính xác và độ tin cậy trong các ứng dụng động.

Grounding (tiếp đất) là một nhiệm vụ trong trí tuệ nhân tạo liên quan đến việc kết nối, hay "tiếp đất", các khái niệm được diễn đạt bằng ngôn ngữ tự nhiên với dữ liệu tương ứng ở các phương thức khác, phổ biến nhất là dữ liệu trực quan như hình ảnh hoặc video. Nói một cách đơn giản, đó là việc dạy máy hiểu cụm từ như "con chó bắt đĩa bay" ám chỉ điều gì trong một hình ảnh cụ thể. Điều này vượt ra ngoài khả năng nhận dạng đơn thuần bằng cách liên kết các mô tả ngôn ngữ với các đối tượng, thuộc tính và mối quan hệ cụ thể trong thế giới nhận thức. Grounding là một khả năng quan trọng để tạo ra các hệ thống AI có thể tương tác với thế giới theo cách giống con người hơn, thu hẹp khoảng cách giữa ngôn ngữ trừu tượng và đầu vào cảm giác cụ thể. Đây là một thành phần quan trọng của các mô hình đa phương thức tiên tiến tích hợp cả Xử lý ngôn ngữ tự nhiên (NLP)Thị giác máy tính (CV) .

Cách thức hoạt động của tiếp địa

Các mô hình nền tảng được đào tạo trên các tập dữ liệu lớn, ghép nối hình ảnh với mô tả văn bản. Những mô tả này thường chứa các cụm từ chi tiết liên kết đến các khu vực hoặc đối tượng cụ thể trong hình ảnh, đôi khi được xác định bằng các hộp giới hạn. Mô hình, thường sử dụng kiến trúc dựa trên Transformer , học cách tạo các biểu diễn số phong phú, hay còn gọi là nhúng , cho cả văn bản và hình ảnh. Sau đó, nó học cách căn chỉnh các nhúng này, sao cho biểu diễn của cụm từ "tòa nhà cao tầng bên phải" khớp chặt chẽ với biểu diễn của vùng pixel tương ứng trong hình ảnh. Quá trình này là nền tảng của Bài toán Nền tảng Biểu tượng (Symbol Grounding Problem ), một thách thức về mặt triết học và kỹ thuật liên quan đến cách các biểu tượng (từ) có được ý nghĩa của chúng. Các mô hình hiện đại như YOLO-World đang tiên phong trong việc phát hiện từ vựng mở, một ứng dụng thực tế của các nguyên tắc nền tảng.

Ứng dụng trong thế giới thực

Việc nối đất cho phép thực hiện các ứng dụng phức tạp đòi hỏi sự hiểu biết sâu sắc về các cảnh trực quan.

  • Robot Tương tác: Trong robot , việc nối đất cho phép robot thực hiện các lệnh bằng ngôn ngữ tự nhiên. Ví dụ, người dùng có thể ra lệnh cho robot kho hàng "nhấc hộp nhỏ màu đỏ phía sau hộp lớn màu xanh". Trí tuệ nhân tạo (AI) của robot phải nối đất toàn bộ cụm từ này, hiểu các đối tượng, thuộc tính (nhỏ, đỏ, lớn, xanh) và các mối quan hệ không gian (phía sau) để thực hiện nhiệm vụ một cách chính xác. Điều này rất quan trọng đối với các ứng dụng từ tự động hóa sản xuất đến robot hỗ trợ trong chăm sóc sức khỏe .
  • Trả lời Câu hỏi Trực quan (VQA) và Tìm kiếm Hình ảnh: Khi bạn hỏi hệ thống "Chiếc xe đỗ cạnh vòi cứu hỏa màu gì?", trước tiên hệ thống cần liên kết các cụm từ "chiếc xe" và "vòi cứu hỏa" để định vị chúng trong hình ảnh. Chỉ khi đó, hệ thống mới có thể xác định màu sắc của chiếc xe và trả lời câu hỏi. Điều này cung cấp các công cụ tìm kiếm ngữ nghĩa trực quan và mạnh mẽ hơn, đồng thời hỗ trợ phát triển các trợ lý ảo hữu ích hơn.

Sự khác biệt từ các khái niệm liên quan

Điều quan trọng là phải phân biệt nối đất với các nhiệm vụ thị giác máy tính khác.

  • Phát hiện Đối tượng : Phát hiện đối tượng tiêu chuẩn xác định các trường hợp của các lớp được xác định trước (ví dụ: 'người', 'xe đạp') từ một vốn từ vựng cố định. Ngược lại, xác định vị trí là một nhiệm vụ vốn từ vựng mở. Nó định vị các đối tượng dựa trên ngôn ngữ tự nhiên mang tính mô tả, dạng tự do, chẳng hạn như "một người đi xe đạp vào một ngày nắng", điều mà các máy phát hiện tiêu chuẩn không thể xử lý.
  • Phân đoạn ngữ nghĩa : Nhiệm vụ này gán nhãn lớp cho mỗi pixel trong ảnh (ví dụ: gán nhãn tất cả pixel là 'bầu trời', 'đường' hoặc 'cây'). Phân đoạn nền tập trung hơn; nó chỉ cô lập đối tượng hoặc vùng cụ thể được mô tả bởi lời nhắc văn bản. Nó liên quan chặt chẽ hơn đến một nhiệm vụ phụ gọi là phân đoạn biểu thức tham chiếu, một dạng phân đoạn thể hiện .

Thách thức và hướng đi trong tương lai

Việc phát triển các mô hình nền tảng mạnh mẽ đặt ra một số thách thức. Tính mơ hồ và phong phú vốn có của ngôn ngữ con người rất khó mô hình hóa. Việc tạo ra các tập dữ liệu quy mô lớn, được chú thích chính xác cần thiết rất tốn kém và đòi hỏi nhiều công sức; ví dụ bao gồm các tập dữ liệu như RefCOCO . Hơn nữa, tài nguyên tính toán cần thiết để huấn luyện các mô hình phức tạp này có thể rất lớn, thường yêu cầu huấn luyện phân tán hoặc huấn luyện đám mây mở rộng. Một rào cản quan trọng khác là đảm bảo các mô hình có thể hoạt động hiệu quả cho suy luận thời gian thực .

Nghiên cứu trong tương lai, thường được công bố trên các nền tảng như arXiv , tập trung vào việc cải thiện hiệu suất thông qua các kỹ thuật như học không-cú-nào để khái quát hóa tốt hơn các mô tả đối tượng chưa được biết đến. Các tổ chức như Viện Allen về AI (AI2) đang tích cực nghiên cứu các lĩnh vực này. Khi công nghệ nền tảng phát triển, nó sẽ cho phép sự hợp tác giữa con người và AI tự nhiên hơn và đưa các hệ thống AI đến gần hơn với sự hiểu biết thực sự, có thể hành động về thế giới.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard