Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Grounding

Descubra como o grounding em IA conecta conceitos abstratos a dados do mundo real, aprimorando o contexto, a precisão e a confiança em aplicações dinâmicas.

A ligação à terra é o processo de Inteligência Artificial (IA) de ligar conceitos abstractos, normalmente palavras ou frases da linguagem natural, a representações concretas no mundo físico, como os pixéis de uma imagem ou os dados sensoriais de um robô. Em termos mais simples, se um computador ler o texto texto "um gato a dormir", a ligação à terra é a capacidade de olhar para uma fotografia e identificar a região específica onde o gato está localizado. Esta capacidade preenche a lacuna semântica entre os símbolos linguísticos e a informação e a informação perceptiva, um desafio conhecido como um desafio conhecido como o problema da fundamentação simbólica na ciência cognitiva. Enquanto os sistemas Enquanto os sistemas tradicionais podem processar texto e imagens separadamente, a permite à IA multimodal compreender a relação entre entre os dois, facilitando uma interação homem-máquina mais intuitiva.

A mecânica da ligação à terra

A nível técnico, a ligação à terra baseia-se no alinhamento de espaços vectoriais de elevada dimensão. Os modelos modernos utilizam arquitecturas de arquitecturas de aprendizagem profunda (DL), em particular o Transformador, para converter texto e imagens em representações numéricas chamadas embeddings. Durante o Durante o treino, o modelo aprende a mapear a incorporação de uma frase de texto (por exemplo, "carro vermelho") perto da incorporação de caraterísticas visuais correspondentes a esse objeto.

Este processo permite a deteção de vocabulário aberto. Ao contrário da deteção de objectos deteção de objectos padrão, que está limitada a uma lista fixa de classes pré-treinadas (como as 80 classes do COCO), os modelos de aterramento podem identificar qualquer objeto descrito por um texto. Isto utiliza a aprendizagem zero-shot, em que o modelo identifica objectos que nunca viu explicitamente antes durante o treino, simplesmente por compreender a linguagem que os descreve. A investigação de organizações como a OpenAI sobre o CLIP estabeleceu as bases para alinhar estas representações visuais e textuais.

Aplicações no Mundo Real

A ligação à terra transforma a forma como as máquinas interpretam a intenção do utilizador e interagem com os seus ambientes.

  • Robótica e agentes autónomos: No domínio da IA em Robótica, é essencial uma base para execução de comandos em linguagem natural. Se um utilizador disser a um robô de serviço para "apanhar a maçã ao lado da caneca", o robô deve associar as palavras "maçã", "caneca" e a relação espacial "ao lado de" a coordenadas físicas específicas na sua câmara. Isto permite a execução dinâmica de tarefas em dinâmica de tarefas em ambientes não estruturados, um dos principais objectivos da investigação em robótica no IEEE.
  • Pesquisa e recuperação semânticas: A fundamentação potencia os motores de pesquisa motores de busca semânticos avançados. Em vez de fazer corresponder palavras-chave, um sistema pode pesquisar uma base de dados de vídeo para consultas complexas como "um ciclista a virar à esquerda ao pôr do sol". O motor fundamenta a consulta no conteúdo visual dos ficheiros de vídeo para obter de vídeo para obter registos de tempo precisos. Esta tecnologia melhora as ferramentas de compreensão de vídeo e gestão de activos digitais e gestão de activos digitais.

Ligação à terra com Ultralytics YOLO

O ultralytics O pacote suporta a ligação à terra através do YOLO modelo. Este modelo permite que os utilizadores definam classes personalizadas em tempo real, utilizando avisos de texto, "ligando" efetivamente o texto à imagem sem necessidade de reciclagem.

O exemplo a seguir demonstra como carregar um modelo pré-treinado e definir prompts personalizados para detect objectos específicos:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Distinguir a ligação à terra de conceitos relacionados

Para compreender o aterramento, é útil diferenciá-lo de tarefas de visão computacional semelhantes:

  • vs. Deteção de Objectos: A deteção padrão, como a realizada por YOLO11identifica objectos a partir de um conjunto fechado de categorias (por exemplo, "pessoa", "carro"). O grounding é aberto e pode detect objectos com base em descrições de texto de forma livre não de texto livre não presentes nos dados de treino.
  • vs. Legenda de imagem: A legendagem de imagens gera uma descrição de texto a partir de uma imagem (Imagem $\to$ Texto). O aterramento funciona normalmente na direção inversa ou bidirecional, localizando elementos visuais com base na introdução de texto (Texto $\to$ Região da imagem).
  • vs. Segmentação semântica: Enquanto a a segmentação semântica classifica cada classifica cada pixel numa categoria, não liga inerentemente esses pixels a frases linguísticas específicas ou a instâncias distintas definidas por atributos complexos (por exemplo, "a maçã vermelha brilhante" vs. apenas "maçã").

Desafios actuais

Apesar dos avanços, o aterramento continua a ser computacionalmente intensivo. O alinhamento de modelos linguísticos maciços com codificadores visão requer recursos significativos recursos significativos GPU . Além disso, os modelos podem ter dificuldades com a ambiguidade; a frase "o banco" pode referir-se a uma margem de um rio ou a uma instituição financeira, exigindo que a IA se baseie em janelas de contexto para para determinar o fundamento visual correto.

Garantir que estes modelos funcionam eficientemente para inferência em tempo real é uma área de desenvolvimento desenvolvimento. Os investigadores estão também a abordar os enviesamentos dos dados para garantir que os modelos de generalizam de forma justa em diferentes culturas e contextos, um tópico frequentemente discutido na ética na literatura sobre IA.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora