Explore os Modelos de Visão de Grande Escala (LVM) e o seu impacto na IA. Saiba como Ultralytics e a Ultralytics permitem a deteção e análise avançadas de objetos.
Os Modelos de Visão de Grande Escala (LVM) representam uma evolução significativa na inteligência artificial, centrando-se exclusivamente na compreensão, geração e processamento de dados visuais em grande escala. Ao contrário dos sistemas tradicionais de visão computacional, que são treinados com conjuntos de dados restritos para tarefas específicas e predefinidas, os LVMs funcionam como modelos fundamentais generalizados, treinados com vastas coleções de imagens e vídeos. Este extenso pré-treino permite-lhes desenvolver uma compreensão profunda e abrangente da geometria visual, texturas e relações espaciais complexas, sem depender de rótulos anotados por humanos.
Os modelos modernos de visão de grande escala recorrem normalmente a Vision Transformers (ViT) ou a arquiteturas convolucionais altamente escaláveis para processar entradas visuais. Ao empregarem técnicas de aprendizagem auto-supervisionada, tais como a modelação de imagens mascaradas, aprendem através da previsão das partes em falta de uma imagem ou fotograma. Organizações académicas como o Stanford Center for Research on Foundation Models demonstraram que o rápido aumento do número de parâmetros destes modelos conduz a capacidades emergentes e inovadoras. Isto permite-lhes adaptar-se a tarefas a jusante, como a deteção de objetos a alta velocidade e a segmentação detalhada de imagens, com um mínimo de ajuste fino.
Os LVM estão a transformar os setores ao realizar análises visuais complexas que, anteriormente, exigiam algoritmos altamente especializados e treinados especificamente para o efeito.
Para compreender plenamente o panorama da IA, é útil distinguir os LVMs de outros modelos de base populares:
Embora os LVMs de grande dimensão exijam frequentemente clusters de servidores a executar PyTorch ou TensorFlow, modelos de visão fundamentais altamente otimizados como Ultralytics trazem inteligência visual poderosa e de ponta diretamente para ambientes de borda locais. O exemplo a seguir demonstra como realizar inferência visual robusta usando um modelo pré-treinado:
from ultralytics import YOLO
# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")
# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the predicted visual relationships
results[0].show()
A transição da investigação académica publicada no arXiv e na biblioteca digital IEEE Xplore para a aplicação prática nas empresas está a acelerar rapidamente. Inovações de grupos de investigação como Google estão a expandir ativamente as LVMs para o domínio temporal, permitindo que os modelos compreendam sequências de vídeo complexas semelhantes às gerações observadas no Sora da OpenAI.
Para programadores e organizações que pretendem criar soluções personalizadas de IA visual, a Ultralytics oferece ferramentas integradas para a anotação de conjuntos de dados em equipa, treino na nuvem e implementação simplificada de modelos, tornando as capacidades avançadas de visão acessíveis a todos. Além disso, ferramentas de segmentação zero-shot como o Segment Anything 2 (SAM )da Meta demonstram como abordagens fundamentais de visão em grande escala — frequentemente detalhadas na ACM Digital Library— estão a padronizar a compreensão complexa ao nível do pixel em toda a indústria da IA.
Comece sua jornada com o futuro do aprendizado de máquina