Descubra como o grounding em IA conecta conceitos abstratos a dados do mundo real, aprimorando o contexto, a precisão e a confiança em aplicações dinâmicas.
A ligação à terra é o processo de Inteligência Artificial (IA) de ligar conceitos abstractos, normalmente palavras ou frases da linguagem natural, a representações concretas no mundo físico, como os pixéis de uma imagem ou os dados sensoriais de um robô. Em termos mais simples, se um computador ler o texto texto "um gato a dormir", a ligação à terra é a capacidade de olhar para uma fotografia e identificar a região específica onde o gato está localizado. Esta capacidade preenche a lacuna semântica entre os símbolos linguísticos e a informação e a informação perceptiva, um desafio conhecido como um desafio conhecido como o problema da fundamentação simbólica na ciência cognitiva. Enquanto os sistemas Enquanto os sistemas tradicionais podem processar texto e imagens separadamente, a permite à IA multimodal compreender a relação entre entre os dois, facilitando uma interação homem-máquina mais intuitiva.
A nível técnico, a ligação à terra baseia-se no alinhamento de espaços vectoriais de elevada dimensão. Os modelos modernos utilizam arquitecturas de arquitecturas de aprendizagem profunda (DL), em particular o Transformador, para converter texto e imagens em representações numéricas chamadas embeddings. Durante o Durante o treino, o modelo aprende a mapear a incorporação de uma frase de texto (por exemplo, "carro vermelho") perto da incorporação de caraterísticas visuais correspondentes a esse objeto.
Este processo permite a deteção de vocabulário aberto. Ao contrário da deteção de objectos deteção de objectos padrão, que está limitada a uma lista fixa de classes pré-treinadas (como as 80 classes do COCO), os modelos de aterramento podem identificar qualquer objeto descrito por um texto. Isto utiliza a aprendizagem zero-shot, em que o modelo identifica objectos que nunca viu explicitamente antes durante o treino, simplesmente por compreender a linguagem que os descreve. A investigação de organizações como a OpenAI sobre o CLIP estabeleceu as bases para alinhar estas representações visuais e textuais.
A ligação à terra transforma a forma como as máquinas interpretam a intenção do utilizador e interagem com os seus ambientes.
O ultralytics O pacote suporta a ligação à terra através do YOLO modelo. Este modelo
permite que os utilizadores definam classes personalizadas em tempo real, utilizando avisos de texto, "ligando" efetivamente o texto à
imagem sem necessidade de reciclagem.
O exemplo a seguir demonstra como carregar um modelo pré-treinado e definir prompts personalizados para detect objectos específicos:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Para compreender o aterramento, é útil diferenciá-lo de tarefas de visão computacional semelhantes:
Apesar dos avanços, o aterramento continua a ser computacionalmente intensivo. O alinhamento de modelos linguísticos maciços com codificadores visão requer recursos significativos recursos significativos GPU . Além disso, os modelos podem ter dificuldades com a ambiguidade; a frase "o banco" pode referir-se a uma margem de um rio ou a uma instituição financeira, exigindo que a IA se baseie em janelas de contexto para para determinar o fundamento visual correto.
Garantir que estes modelos funcionam eficientemente para inferência em tempo real é uma área de desenvolvimento desenvolvimento. Os investigadores estão também a abordar os enviesamentos dos dados para garantir que os modelos de generalizam de forma justa em diferentes culturas e contextos, um tópico frequentemente discutido na ética na literatura sobre IA.