Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Nền tảng

Khám phá cách grounding trong AI liên kết các khái niệm trừu tượng với dữ liệu thực tế, tăng cường ngữ cảnh, độ chính xác và độ tin cậy trong các ứng dụng động.

Grounding là một nhiệm vụ trong trí tuệ nhân tạo, liên quan đến việc kết nối, hoặc "grounding", các khái niệm được diễn đạt bằng ngôn ngữ tự nhiên với dữ liệu tương ứng trong các phương thức khác, phổ biến nhất là dữ liệu trực quan như hình ảnh hoặc video. Nói một cách đơn giản, đó là việc dạy một cỗ máy hiểu cụm từ như "con chó bắt đĩa bay" đề cập đến điều gì trong một bức tranh cụ thể. Điều này vượt ra ngoài việc nhận dạng đơn giản bằng cách liên kết các mô tả ngôn ngữ với các đối tượng, thuộc tính và mối quan hệ cụ thể trong thế giới tri giác. Grounding là một khả năng quan trọng để tạo ra các hệ thống AI có thể tương tác với thế giới theo cách giống con người hơn, thu hẹp khoảng cách giữa ngôn ngữ trừu tượng và đầu vào cảm giác cụ thể. Nó là một thành phần quan trọng của các mô hình đa phương thức tiên tiến tích hợp cả Xử lý ngôn ngữ tự nhiên (NLP)Thị giác máy tính (CV).

Cách Grounding hoạt động

Các mô hình Grounding được huấn luyện trên các bộ dữ liệu lớn ghép nối hình ảnh với các mô tả bằng văn bản. Các mô tả này thường chứa các cụm từ chi tiết được liên kết với các khu vực hoặc đối tượng cụ thể trong hình ảnh, đôi khi được xác định bằng bounding box. Mô hình, thường sử dụng kiến trúc dựa trên Transformer, học cách tạo ra các biểu diễn số phong phú, hoặc embedding, cho cả văn bản và hình ảnh. Sau đó, nó học cách căn chỉnh các embedding này, sao cho biểu diễn của cụm từ "tòa nhà cao tầng bên phải" khớp chặt chẽ với biểu diễn của vùng pixel tương ứng trong hình ảnh. Quá trình này là nền tảng cho Bài toán Grounding Ký hiệu, một thách thức triết học và kỹ thuật liên quan đến cách các ký hiệu (từ ngữ) có được ý nghĩa của chúng. Các mô hình hiện đại như YOLO-World đang tiên phong trong việc phát hiện từ vựng mở, đây là một ứng dụng thực tế của các nguyên tắc grounding.

Các Ứng dụng Thực tế

Grounding cho phép các ứng dụng phức tạp đòi hỏi sự hiểu biết sâu sắc về các cảnh trực quan.

  • Robot học Tương tác: Trong robot học, việc "grounding" cho phép robot tuân theo các lệnh bằng ngôn ngữ tự nhiên. Ví dụ: người dùng có thể hướng dẫn một robot kho hàng "nhặt chiếc hộp màu đỏ nhỏ phía sau chiếc hộp màu xanh lớn". AI của robot phải "ground" toàn bộ cụm từ này, hiểu các đối tượng, thuộc tính (nhỏ, đỏ, lớn, xanh) và các mối quan hệ không gian (phía sau), để thực hiện nhiệm vụ một cách chính xác. Điều này rất quan trọng đối với các ứng dụng từ tự động hóa sản xuất đến robot hỗ trợ trong chăm sóc sức khỏe.
  • Trả lời câu hỏi trực quan (VQA) và Tìm kiếm hình ảnh: Khi bạn hỏi một hệ thống, "Chiếc xe hơi đậu cạnh trụ cứu hỏa có màu gì?" trước tiên nó cần phải xác định các cụm từ "chiếc xe hơi" và "trụ cứu hỏa" để định vị chúng trong hình ảnh. Chỉ sau đó nó mới có thể xác định màu sắc của xe hơi và trả lời câu hỏi. Điều này cung cấp sức mạnh cho các công cụ tìm kiếm ngữ nghĩa trực quan và mạnh mẽ hơn, đồng thời hỗ trợ phát triển trợ lý ảo hữu ích hơn.

Sự khác biệt so với các khái niệm liên quan

Điều quan trọng là phân biệt grounding với các tác vụ thị giác máy tính khác.

  • Phát hiện đối tượng: Phát hiện đối tượng tiêu chuẩn xác định các thể hiện của các lớp được xác định trước (ví dụ: 'người', 'xe đạp') từ một từ vựng cố định. Ngược lại, grounding là một nhiệm vụ từ vựng mở. Nó định vị các đối tượng dựa trên ngôn ngữ tự nhiên mô tả, dạng tự do, chẳng hạn như "một người đi xe đạp vào một ngày nắng," mà các máy dò tiêu chuẩn không thể xử lý.
  • Phân Vùng Ngữ Nghĩa (Semantic Segmentation): Tác vụ này gán nhãn lớp cho mọi pixel trong ảnh (ví dụ: gán nhãn tất cả các pixel là 'bầu trời', 'đường' hoặc 'cây'). Grounding tập trung hơn; nó chỉ cô lập đối tượng hoặc vùng cụ thể được mô tả bởi lời nhắc văn bản. Nó liên quan chặt chẽ hơn đến một nhiệm vụ con gọi là phân vùng biểu thức tham chiếu, là một dạng của phân vùng thể hiện (instance segmentation).

Thách thức và Định hướng Tương lai

Phát triển các mô hình grounding mạnh mẽ đặt ra một số thách thức. Sự mơ hồ và phong phú vốn có của ngôn ngữ loài người rất khó mô hình hóa. Việc tạo ra các bộ dữ liệu được chú thích chính xác, quy mô lớn cần thiết rất tốn kém và tốn nhiều công sức; ví dụ bao gồm các bộ dữ liệu như RefCOCO. Hơn nữa, tài nguyên tính toán cần thiết để huấn luyện các mô hình phức tạp này có thể rất lớn, thường đòi hỏi huấn luyện phân tán hoặc huấn luyện đám mây mở rộng. Đảm bảo các mô hình có thể hoạt động hiệu quả để suy luận theo thời gian thực là một trở ngại quan trọng khác.

Các nghiên cứu trong tương lai, thường được công bố trên các nền tảng như arXiv, tập trung vào việc cải thiện hiệu suất thông qua các kỹ thuật như zero-shot learning để khái quát hóa tốt hơn cho các mô tả đối tượng chưa từng thấy. Các tổ chức như Allen Institute for AI (AI2) đang tích cực nghiên cứu các lĩnh vực này. Khi công nghệ grounding phát triển, nó sẽ cho phép sự hợp tác giữa người và AI trở nên tự nhiên hơn và đưa các hệ thống AI đến gần hơn với sự hiểu biết thực sự, có thể hành động về thế giới.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard