Grounding

Khám phá các nguyên tắc cơ bản của grounding trong AI. Tìm hiểu cách kết nối ngôn ngữ tự nhiên với dữ liệu thị giác bằng cách sử dụng Ultralytics YOLO26 và YOLO-World để phát hiện đối tượng mở rộng.

Grounding đề cập đến khả năng của một hệ thống trí tuệ nhân tạo trong việc kết nối các khái niệm trừu tượng—thường bắt nguồn từ ngôn ngữ tự nhiên—với các biểu diễn cụ thể, hữu hình trong thế giới vật lý, chẳng hạn như dữ liệu hình ảnh hoặc đầu vào cảm biến. Trong bối cảnh computer vision, điều này có nghĩa là một model không chỉ xử lý văn bản đơn thuần; nó có thể phân tích cú pháp một cụm từ như "một người đang dắt chó đi dạo" và định vị chính xác các thực thể đó trong một hình ảnh hoặc luồng video. Quá trình này thu hẹp khoảng cách giữa suy luận biểu tượng và nhận thức ở cấp độ pixel, giải quyết symbol grounding problem cơ bản trong khoa học nhận thức. Bằng cách liên kết các token ngôn ngữ với các đặc trưng thị giác, grounding đóng vai trò là nền tảng cho multimodal AI hiện đại, cho phép máy móc tương tác trực quan hơn với môi trường động của con người.

Link to this sectionCơ chế của Grounding#

Ở cấp độ kỹ thuật, grounding liên quan đến việc căn chỉnh dữ liệu từ các phương thức (modalities) khác nhau vào một không gian vector đa chiều chung. Các kiến trúc tiên tiến, thường được xây dựng trên framework Transformer được sử dụng trong natural language processing (NLP), tạo ra các biểu diễn số được gọi là embeddings cho cả mô tả văn bản và đầu vào hình ảnh. Trong quá trình huấn luyện, model học cách giảm thiểu khoảng cách giữa embedding của một prompt văn bản (ví dụ: "ba lô màu xanh") và embedding của vùng thị giác tương ứng.

Sự căn chỉnh này cho phép thực hiện Open-Vocabulary Detection. Không giống như học có giám sát truyền thống, nơi một model bị giới hạn trong một tập hợp các danh mục cố định, grounding cho phép zero-shot learning. Một model đã được grounding có thể xác định các đối tượng mà nó chưa từng thấy rõ ràng trong quá trình huấn luyện, miễn là nó hiểu ngôn ngữ mô tả chúng. Sự linh hoạt này được hỗ trợ bởi các framework deep learning như PyTorch, giúp thực hiện các phép toán ma trận phức tạp cần thiết cho các sự căn chỉnh đa phương thức này.

Link to this sectionCác ứng dụng trong thực tế#

Công nghệ grounding đang định hình lại các ngành công nghiệp bằng cách cho phép các hệ thống diễn giải ý định của người dùng và điều hướng các môi trường phi cấu trúc một cách hiệu quả.

AI in Robotics: Grounding là yếu tố cần thiết cho các tác nhân tự hành thực hiện các hướng dẫn bằng lời nói. Nếu một robot nhà kho được yêu cầu "nhặt gói hàng trên kệ cao nhất", nó phải thực hiện grounding các khái niệm "gói hàng" và "kệ cao nhất" thành các tọa độ 3D cụ thể trong trường nhìn của nó. Khả năng này là trọng tâm chính của robotics research at MIT CSAIL, cho phép robot vận hành an toàn cùng với con người.
Semantic Search và Truy xuất phương tiện: Grounding cung cấp sức mạnh cho các công cụ tìm kiếm tiên tiến vượt xa việc khớp từ khóa. Người dùng có thể truy vấn kho lưu trữ video với các mô tả phức tạp như "một người đi xe đạp rẽ trái lúc hoàng hôn", và hệ thống sử dụng grounding để truy xuất các dấu thời gian cụ thể. Điều này tăng cường đáng kể video understanding cho mục đích bảo mật và quản lý phương tiện.
Công nghệ hỗ trợ: Đối với người khiếm thị, grounding cho phép các ứng dụng mô tả môi trường xung quanh trong thời gian thực hoặc trả lời các câu hỏi về môi trường, dựa trên khả năng image recognition mạnh mẽ được liên kết với khả năng tạo lời nói.

Link to this sectionGrounding với Ultralytics YOLO-World#

Hệ sinh thái Ultralytics hỗ trợ grounding thông qua các kiến trúc chuyên biệt như YOLO-World. Trong khi các model tiêu chuẩn yêu cầu huấn luyện trên các tập dữ liệu cụ thể, YOLO-World cho phép người dùng xác định các lớp phát hiện tùy chỉnh ngay lập tức bằng cách sử dụng các prompt văn bản. Điều này thực sự "ground" đầu vào ngôn ngữ tự nhiên lên hình ảnh mà không cần huấn luyện lại.

Ví dụ sau đây minh họa cách sử dụng gói ultralytics để phát hiện các đối tượng dựa trên các mô tả văn bản tùy chỉnh:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Link to this sectionPhân biệt Grounding với các khái niệm liên quan#

Để đánh giá đầy đủ tiện ích của grounding, việc phân biệt nó với các tác vụ computer vision tương tự là rất hữu ích:

vs. Object Detection: Các model phát hiện truyền thống, chẳng hạn như YOLO26 tiên tiến nhất, xác định các đối tượng từ một tập hợp các danh mục đóng, được xác định trước (ví dụ: 80 lớp trong COCO). Grounding là mở, xác định các đối tượng dựa trên văn bản dạng tự do.
vs. Image Captioning: Captioning tạo ra một câu mô tả cho toàn bộ hình ảnh (Hình ảnh $\to$ Văn bản). Grounding thường hoạt động theo hướng ngược lại hoặc hai chiều, định vị các phần tử thị giác cụ thể dựa trên đầu vào văn bản (Văn bản $\to$ Vùng hình ảnh).
vs. Visual Question Answering (VQA): VQA liên quan đến việc trả lời một câu hỏi cụ thể về một hình ảnh (ví dụ: "Chiếc xe màu gì?"). Grounding tập trung cụ thể vào bước định vị—vẽ một bounding box xung quanh đối tượng được đề cập.

Link to this sectionNhững thách thức và Triển vọng tương lai#

Bất chấp những tiến bộ, grounding vẫn đòi hỏi tài nguyên tính toán lớn. Việc căn chỉnh các model ngôn ngữ khổng lồ với các bộ mã hóa thị giác đòi hỏi GPU resources đáng kể và quản lý bộ nhớ hiệu quả, một thách thức thường được giải quyết bởi các nhà đổi mới phần cứng như NVIDIA. Ngoài ra, các model có thể gặp khó khăn với sự mơ hồ về ngôn ngữ, đòi hỏi các context windows lớn để giải quyết xem từ "bat" có nghĩa là một dụng cụ thể thao hay là một loài động vật.

Các phát triển trong tương lai đang hướng tới các model nền tảng thống nhất mang tính đa phương thức tự nhiên. Các công cụ như Ultralytics Platform đang phát triển để giúp các nhà phát triển quản lý các tập dữ liệu phức tạp cần thiết cho các tác vụ này, cung cấp các quy trình làm việc được tối ưu hóa cho data annotation và triển khai model. Khi các công nghệ này hoàn thiện, chúng ta có thể mong đợi sự tích hợp liền mạch của grounding vào các thiết bị edge, cho phép các ứng dụng AI thông minh hơn và phản hồi nhanh hơn.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Grounding

Link to this sectionCơ chế của Grounding#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionGrounding với Ultralytics YOLO-World#

Link to this sectionPhân biệt Grounding với các khái niệm liên quan#

Link to this sectionNhững thách thức và Triển vọng tương lai#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!