Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nền tảng

Khám phá cách grounding trong AI liên kết các khái niệm trừu tượng với dữ liệu thực tế, tăng cường ngữ cảnh, độ chính xác và độ tin cậy trong các ứng dụng động.

Tiếp địa là quá trình trong Trí tuệ Nhân tạo (AI) kết nối các khái niệm trừu tượng, thường là các từ hoặc cụm từ trong ngôn ngữ tự nhiên, với các biểu diễn cụ thể trong thế giới vật lý, chẳng hạn như các điểm ảnh trong hình ảnh hoặc dữ liệu cảm quan từ robot. Nói một cách đơn giản hơn, nếu máy tính đọc văn bản "một con mèo đang ngủ", tiếp địa là khả năng nhìn vào một bức ảnh và xác định vị trí cụ thể nơi con mèo đang ở. Khả năng này thu hẹp khoảng cách ngữ nghĩa giữa các ký hiệu ngôn ngữ và thông tin nhận thức, một thách thức nổi tiếng được gọi là bài toán tiếp địa ký hiệu trong khoa học nhận thức. Trong khi các hệ thống truyền thống có thể xử lý văn bản và hình ảnh riêng biệt, tiếp địa cho phép AI đa phương thức hiểu được mối quan hệ giữa hai yếu tố này, tạo điều kiện cho tương tác trực quan hơn giữa người và máy.

Cơ chế tiếp địa

Về mặt kỹ thuật, việc nối đất dựa trên việc căn chỉnh các không gian vectơ đa chiều. Các mô hình hiện đại sử dụng kiến trúc Học Sâu (DL) , đặc biệt là Transformer , để chuyển đổi cả văn bản và hình ảnh thành các biểu diễn số gọi là nhúng . Trong quá trình huấn luyện, mô hình học cách ánh xạ nhúng của một cụm từ văn bản (ví dụ: "xe hơi màu đỏ") gần với nhúng của các đặc điểm trực quan tương ứng với vật thể đó.

Quá trình này cho phép Phát hiện Từ vựng Mở . Không giống như phát hiện đối tượng tiêu chuẩn bị giới hạn trong một danh sách cố định các lớp được đào tạo trước (như 80 lớp trong COCO ), các mô hình nền tảng có thể xác định bất kỳ đối tượng nào được mô tả bằng lời nhắc văn bản. Phương pháp này sử dụng học không-shot , trong đó mô hình xác định các đối tượng mà nó chưa từng thấy rõ ràng trước đây trong quá trình huấn luyện, chỉ bằng cách hiểu ngôn ngữ mô tả chúng. Nghiên cứu từ các tổ chức như OpenAI trên CLIP đã đặt nền móng cho việc sắp xếp các biểu diễn trực quan và văn bản này.

Các Ứng dụng Thực tế

Việc tiếp đất làm thay đổi cách máy móc diễn giải ý định của người dùng và tương tác với môi trường xung quanh.

  • Robot và Tác nhân Tự động: Trong lĩnh vực AI trong Robot , việc nối đất là thiết yếu để thực hiện các lệnh ngôn ngữ tự nhiên. Nếu người dùng yêu cầu robot dịch vụ "nhặt quả táo bên cạnh cốc", robot phải nối đất các từ "táo", "cốc" và mối quan hệ không gian "bên cạnh" với tọa độ vật lý cụ thể trong nguồn cấp dữ liệu camera. Điều này cho phép thực hiện tác vụ động trong môi trường phi cấu trúc, một trọng tâm nghiên cứu robot tại IEEE .
  • Tìm kiếm và Truy xuất Ngữ nghĩa: Grounding cung cấp sức mạnh cho các công cụ tìm kiếm ngữ nghĩa tiên tiến. Thay vì khớp từ khóa, hệ thống có thể tìm kiếm trong cơ sở dữ liệu video các truy vấn phức tạp như "một người đi xe đạp rẽ trái lúc hoàng hôn". Công cụ này sẽ kết nối truy vấn vào nội dung trực quan của các tệp video để truy xuất dấu thời gian chính xác. Công nghệ này tăng cường các công cụ để hiểu video và quản lý tài sản kỹ thuật số.

Nối đất với Ultralytics YOLO -Thế giới

Các ultralytics gói hỗ trợ nối đất thông qua YOLO -Thế giới mô hình. Mô hình này cho phép người dùng xác định các lớp tùy chỉnh ngay lập tức bằng cách sử dụng lời nhắc văn bản, "gắn" văn bản vào hình ảnh một cách hiệu quả mà không cần đào tạo lại.

Ví dụ sau đây minh họa cách tải một mô hình được đào tạo trước và xác định lời nhắc tùy chỉnh để detect các đối tượng cụ thể:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Phân biệt nối đất với các khái niệm liên quan

Để hiểu về cơ sở, cần phân biệt nó với các tác vụ thị giác máy tính tương tự:

  • so với Phát hiện Đối tượng: Phát hiện tiêu chuẩn, chẳng hạn như phát hiện được thực hiện bởi YOLO11 , xác định các đối tượng từ một tập hợp các danh mục đóng (ví dụ: 'người', 'xe hơi'). Việc tiếp đất là mở và có thể detect các đối tượng dựa trên mô tả văn bản dạng tự do không có trong dữ liệu đào tạo.
  • so với Chú thích hình ảnh: Chú thích hình ảnh tạo ra mô tả văn bản từ hình ảnh (Hình ảnh $\to$ Văn bản). Grounding thường hoạt động theo hướng ngược lại hoặc hai chiều, định vị các yếu tố trực quan dựa trên văn bản đầu vào (Vùng Văn bản $\to$ Hình ảnh).
  • so với Phân đoạn ngữ nghĩa: Trong khi phân đoạn ngữ nghĩa phân loại từng pixel thành một danh mục, nó không liên kết các pixel đó với các cụm từ ngôn ngữ cụ thể hoặc các trường hợp riêng biệt được xác định bởi các thuộc tính phức tạp (ví dụ: "quả táo đỏ bóng" so với chỉ "quả táo").

Những thách thức hiện tại

Bất chấp những tiến bộ, việc xác định vị trí nền tảng vẫn đòi hỏi nhiều tính toán. Việc căn chỉnh các mô hình ngôn ngữ đồ sộ với bộ mã hóa thị giác đòi hỏi tài nguyên GPU đáng kể. Ngoài ra, các mô hình có thể gặp khó khăn với sự mơ hồ; cụm từ "ngân hàng" có thể ám chỉ một bờ sông hoặc một tổ chức tài chính, đòi hỏi AI phải dựa vào các cửa sổ ngữ cảnh để xác định vị trí nền tảng thị giác chính xác.

Việc đảm bảo các mô hình này hoạt động hiệu quả cho suy luận thời gian thực là một lĩnh vực đang được phát triển. Các nhà nghiên cứu cũng đang giải quyết vấn đề thiên vị dữ liệu để đảm bảo các mô hình nền tảng có thể khái quát hóa một cách công bằng giữa các nền văn hóa và bối cảnh khác nhau, một chủ đề thường được thảo luận trong các tài liệu về đạo đức trong AI .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay