Glossário

Grounding

Descubra como o grounding em IA conecta conceitos abstratos a dados do mundo real, aprimorando o contexto, a precisão e a confiança em aplicações dinâmicas.

A ligação à terra é o processo de Inteligência Artificial (IA) de ligar conceitos abstractos, normalmente palavras ou frases da linguagem natural, a representações concretas no mundo físico, como os pixéis de uma imagem ou os dados sensoriais de um robô. Em termos mais simples, se um computador ler o texto texto "um gato a dormir", a ligação à terra é a capacidade de olhar para uma fotografia e identificar a região específica onde o gato está localizado. Esta capacidade preenche a lacuna semântica entre os símbolos linguísticos e a informação e a informação perceptiva, um desafio conhecido como um desafio conhecido como o problema da fundamentação simbólica na ciência cognitiva. Enquanto os sistemas Enquanto os sistemas tradicionais podem processar texto e imagens separadamente, a permite à IA multimodal compreender a relação entre entre os dois, facilitando uma interação homem-máquina mais intuitiva.

A mecânica da ligação à terra

A nível técnico, a ligação à terra baseia-se no alinhamento de espaços vectoriais de elevada dimensão. Os modelos modernos utilizam arquitecturas de arquitecturas de aprendizagem profunda (DL), em particular o Transformador, para converter texto e imagens em representações numéricas chamadas embeddings. Durante o Durante o treino, o modelo aprende a mapear a incorporação de uma frase de texto (por exemplo, "carro vermelho") perto da incorporação de caraterísticas visuais correspondentes a esse objeto.

Este processo permite a deteção de vocabulário aberto. Ao contrário da deteção de objectos deteção de objectos padrão, que está limitada a uma lista fixa de classes pré-treinadas (como as 80 classes do COCO), os modelos de aterramento podem identificar qualquer objeto descrito por um texto. Isto utiliza a aprendizagem zero-shot, em que o modelo identifica objectos que nunca viu explicitamente antes durante o treino, simplesmente por compreender a linguagem que os descreve. A investigação de organizações como a OpenAI sobre o CLIP estabeleceu as bases para alinhar estas representações visuais e textuais.

Aplicações no Mundo Real

A ligação à terra transforma a forma como as máquinas interpretam a intenção do utilizador e interagem com os seus ambientes.

Robótica e agentes autónomos: No domínio da IA em Robótica, é essencial uma base para execução de comandos em linguagem natural. Se um utilizador disser a um robô de serviço para "apanhar a maçã ao lado da caneca", o robô deve associar as palavras "maçã", "caneca" e a relação espacial "ao lado de" a coordenadas físicas específicas na sua câmara. Isto permite a execução dinâmica de tarefas em dinâmica de tarefas em ambientes não estruturados, um dos principais objectivos da investigação em robótica no IEEE.
Pesquisa e recuperação semânticas: A fundamentação potencia os motores de pesquisa motores de busca semânticos avançados. Em vez de fazer corresponder palavras-chave, um sistema pode pesquisar uma base de dados de vídeo para consultas complexas como "um ciclista a virar à esquerda ao pôr do sol". O motor fundamenta a consulta no conteúdo visual dos ficheiros de vídeo para obter de vídeo para obter registos de tempo precisos. Esta tecnologia melhora as ferramentas de compreensão de vídeo e gestão de activos digitais e gestão de activos digitais.

Ligação à terra com Ultralytics YOLO

O ultralytics O pacote suporta a ligação à terra através do YOLO modelo. Este modelo permite que os utilizadores definam classes personalizadas em tempo real, utilizando avisos de texto, "ligando" efetivamente o texto à imagem sem necessidade de reciclagem.

O exemplo a seguir demonstra como carregar um modelo pré-treinado e definir prompts personalizados para detect objectos específicos:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Distinguir a ligação à terra de conceitos relacionados

Para compreender o aterramento, é útil diferenciá-lo de tarefas de visão computacional semelhantes:

vs. Deteção de Objectos: A deteção padrão, como a realizada por YOLO11identifica objectos a partir de um conjunto fechado de categorias (por exemplo, "pessoa", "carro"). O grounding é aberto e pode detect objectos com base em descrições de texto de forma livre não de texto livre não presentes nos dados de treino.
vs. Legenda de imagem: A legendagem de imagens gera uma descrição de texto a partir de uma imagem (Imagem $\to$ Texto). O aterramento funciona normalmente na direção inversa ou bidirecional, localizando elementos visuais com base na introdução de texto (Texto $\to$ Região da imagem).
vs. Segmentação semântica: Enquanto a a segmentação semântica classifica cada classifica cada pixel numa categoria, não liga inerentemente esses pixels a frases linguísticas específicas ou a instâncias distintas definidas por atributos complexos (por exemplo, "a maçã vermelha brilhante" vs. apenas "maçã").

Desafios actuais

Apesar dos avanços, o aterramento continua a ser computacionalmente intensivo. O alinhamento de modelos linguísticos maciços com codificadores visão requer recursos significativos recursos significativos GPU . Além disso, os modelos podem ter dificuldades com a ambiguidade; a frase "o banco" pode referir-se a uma margem de um rio ou a uma instituição financeira, exigindo que a IA se baseie em janelas de contexto para para determinar o fundamento visual correto.

Garantir que estes modelos funcionam eficientemente para inferência em tempo real é uma área de desenvolvimento desenvolvimento. Os investigadores estão também a abordar os enviesamentos dos dados para garantir que os modelos de generalizam de forma justa em diferentes culturas e contextos, um tópico frequentemente discutido na ética na literatura sobre IA.

Grounding

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

A mecânica da ligação à terra

Aplicações no Mundo Real

Ligação à terra com Ultralytics YOLO

Distinguir a ligação à terra de conceitos relacionados

Desafios actuais

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

O que é destilação de conjuntos de dados? Uma rápida visão geral

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

Junte-se à comunidade Ultralytics