Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Modelos de Visão de Grande Escala (LVM)

Explore os Modelos de Visão de Grande Escala (LVM) e o seu impacto na IA. Saiba como Ultralytics e a Ultralytics permitem a deteção e análise avançadas de objetos.

Os Modelos de Visão de Grande Escala (LVM) representam uma evolução significativa na inteligência artificial, centrando-se exclusivamente na compreensão, geração e processamento de dados visuais em grande escala. Ao contrário dos sistemas tradicionais de visão computacional, que são treinados com conjuntos de dados restritos para tarefas específicas e predefinidas, os LVMs funcionam como modelos fundamentais generalizados, treinados com vastas coleções de imagens e vídeos. Este extenso pré-treino permite-lhes desenvolver uma compreensão profunda e abrangente da geometria visual, texturas e relações espaciais complexas, sem depender de rótulos anotados por humanos.

Como funcionam os modelos de visão de grande escala

Os modelos modernos de visão de grande escala recorrem normalmente a Vision Transformers (ViT) ou a arquiteturas convolucionais altamente escaláveis para processar entradas visuais. Ao empregarem técnicas de aprendizagem auto-supervisionada, tais como a modelação de imagens mascaradas, aprendem através da previsão das partes em falta de uma imagem ou fotograma. Organizações académicas como o Stanford Center for Research on Foundation Models demonstraram que o rápido aumento do número de parâmetros destes modelos conduz a capacidades emergentes e inovadoras. Isto permite-lhes adaptar-se a tarefas a jusante, como a deteção de objetos a alta velocidade e a segmentação detalhada de imagens, com um mínimo de ajuste fino.

Aplicações no Mundo Real

Os LVM estão a transformar os setores ao realizar análises visuais complexas que, anteriormente, exigiam algoritmos altamente especializados e treinados especificamente para o efeito.

  • Análise automatizada de imagens médicas: Em ambientes clínicos, grandes arquiteturas de visão processam radiografias, ressonâncias magnéticas e tomografias computadorizadas de alta resolução para identificar anomalias subtis, auxiliando os radiologistas na deteção precoce de doenças e reduzindo significativamente os erros de diagnóstico.
  • Detecção de defeitos na produção: As linhas de produção das fábricas utilizam modelos de visão generalizados para inspecionar produtos em tempo real, identificando facilmente defeitos complexos e nunca antes observados nas linhas de montagem e melhorando o controlo de qualidade sem necessidade de milhares de exemplos de cada falha específica.

Distinguir conceitos relacionados

Para compreender plenamente o panorama da IA, é útil distinguir os LVMs de outros modelos de base populares:

  • LVM vs. Modelo de Linguagem Visual (VLM): Enquanto um LVM processa apenas modalidades visuais (pixels), um VLM integra tanto texto como imagens, permitindo aos utilizadores fazer perguntas em linguagem natural sobre uma imagem ou receber descrições textuais de um vídeo.
  • LVM vs. Modelo de Linguagem de Grande Dimensão (LLM): Os LLMs são treinados exclusivamente com dados de texto para compreender e gerar linguagem humana. Um LVM realiza o mesmo processo de dimensionamento e compreensão, mas estritamente para dados visuais.

Trabalhar com modelos de visão

Embora os LVMs de grande dimensão exijam frequentemente clusters de servidores a executar PyTorch ou TensorFlow, modelos de visão fundamentais altamente otimizados como Ultralytics trazem inteligência visual poderosa e de ponta diretamente para ambientes de borda locais. O exemplo a seguir demonstra como realizar inferência visual robusta usando um modelo pré-treinado:

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

O Futuro da Inteligência Visual

A transição da investigação académica publicada no arXiv e na biblioteca digital IEEE Xplore para a aplicação prática nas empresas está a acelerar rapidamente. Inovações de grupos de investigação como Google estão a expandir ativamente as LVMs para o domínio temporal, permitindo que os modelos compreendam sequências de vídeo complexas semelhantes às gerações observadas no Sora da OpenAI.

Para programadores e organizações que pretendem criar soluções personalizadas de IA visual, a Ultralytics oferece ferramentas integradas para a anotação de conjuntos de dados em equipa, treino na nuvem e implementação simplificada de modelos, tornando as capacidades avançadas de visão acessíveis a todos. Além disso, ferramentas de segmentação zero-shot como o Segment Anything 2 (SAM )da Meta demonstram como abordagens fundamentais de visão em grande escala — frequentemente detalhadas na ACM Digital Library— estão a padronizar a compreensão complexa ao nível do pixel em toda a indústria da IA.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina