Khám phá cách grounding trong AI liên kết các khái niệm trừu tượng với dữ liệu thực tế, tăng cường ngữ cảnh, độ chính xác và độ tin cậy trong các ứng dụng động.
Tiếp địa là quá trình trong Trí tuệ Nhân tạo (AI) kết nối các khái niệm trừu tượng, thường là các từ hoặc cụm từ trong ngôn ngữ tự nhiên, với các biểu diễn cụ thể trong thế giới vật lý, chẳng hạn như các điểm ảnh trong hình ảnh hoặc dữ liệu cảm quan từ robot. Nói một cách đơn giản hơn, nếu máy tính đọc văn bản "một con mèo đang ngủ", tiếp địa là khả năng nhìn vào một bức ảnh và xác định vị trí cụ thể nơi con mèo đang ở. Khả năng này thu hẹp khoảng cách ngữ nghĩa giữa các ký hiệu ngôn ngữ và thông tin nhận thức, một thách thức nổi tiếng được gọi là bài toán tiếp địa ký hiệu trong khoa học nhận thức. Trong khi các hệ thống truyền thống có thể xử lý văn bản và hình ảnh riêng biệt, tiếp địa cho phép AI đa phương thức hiểu được mối quan hệ giữa hai yếu tố này, tạo điều kiện cho tương tác trực quan hơn giữa người và máy.
Về mặt kỹ thuật, việc nối đất dựa trên việc căn chỉnh các không gian vectơ đa chiều. Các mô hình hiện đại sử dụng kiến trúc Học Sâu (DL) , đặc biệt là Transformer , để chuyển đổi cả văn bản và hình ảnh thành các biểu diễn số gọi là nhúng . Trong quá trình huấn luyện, mô hình học cách ánh xạ nhúng của một cụm từ văn bản (ví dụ: "xe hơi màu đỏ") gần với nhúng của các đặc điểm trực quan tương ứng với vật thể đó.
Quá trình này cho phép Phát hiện Từ vựng Mở . Không giống như phát hiện đối tượng tiêu chuẩn bị giới hạn trong một danh sách cố định các lớp được đào tạo trước (như 80 lớp trong COCO ), các mô hình nền tảng có thể xác định bất kỳ đối tượng nào được mô tả bằng lời nhắc văn bản. Phương pháp này sử dụng học không-shot , trong đó mô hình xác định các đối tượng mà nó chưa từng thấy rõ ràng trước đây trong quá trình huấn luyện, chỉ bằng cách hiểu ngôn ngữ mô tả chúng. Nghiên cứu từ các tổ chức như OpenAI trên CLIP đã đặt nền móng cho việc sắp xếp các biểu diễn trực quan và văn bản này.
Việc tiếp đất làm thay đổi cách máy móc diễn giải ý định của người dùng và tương tác với môi trường xung quanh.
Các ultralytics gói hỗ trợ nối đất thông qua YOLO -Thế giới mô hình. Mô hình này cho phép người dùng xác định các lớp tùy chỉnh ngay lập tức bằng cách sử dụng lời nhắc văn bản, "gắn" văn bản vào hình ảnh một cách hiệu quả mà không cần đào tạo lại.
Ví dụ sau đây minh họa cách tải một mô hình được đào tạo trước và xác định lời nhắc tùy chỉnh để detect các đối tượng cụ thể:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Để hiểu về cơ sở, cần phân biệt nó với các tác vụ thị giác máy tính tương tự:
Bất chấp những tiến bộ, việc xác định vị trí nền tảng vẫn đòi hỏi nhiều tính toán. Việc căn chỉnh các mô hình ngôn ngữ đồ sộ với bộ mã hóa thị giác đòi hỏi tài nguyên GPU đáng kể. Ngoài ra, các mô hình có thể gặp khó khăn với sự mơ hồ; cụm từ "ngân hàng" có thể ám chỉ một bờ sông hoặc một tổ chức tài chính, đòi hỏi AI phải dựa vào các cửa sổ ngữ cảnh để xác định vị trí nền tảng thị giác chính xác.
Việc đảm bảo các mô hình này hoạt động hiệu quả cho suy luận thời gian thực là một lĩnh vực đang được phát triển. Các nhà nghiên cứu cũng đang giải quyết vấn đề thiên vị dữ liệu để đảm bảo các mô hình nền tảng có thể khái quát hóa một cách công bằng giữa các nền văn hóa và bối cảnh khác nhau, một chủ đề thường được thảo luận trong các tài liệu về đạo đức trong AI .