Scopri i modelli Large Vision (LVM) e il loro impatto sull'intelligenza artificiale. Scopri come Ultralytics e la Ultralytics consentono il rilevamento e l'analisi avanzati degli oggetti.
I Large Vision Models (LVM) rappresentano un’importante evoluzione nell’ambito dell’intelligenza artificiale, concentrandosi esclusivamente sulla comprensione, la generazione e l’elaborazione di dati visivi su vasta scala. A differenza dei tradizionali sistemi di visione artificiale, addestrati su set di dati ristretti per compiti specifici e predefiniti, gli LVM fungono da modelli di base generalizzati, addestrati su vaste raccolte di immagini e video. Questo esteso pre-addestramento consente loro di sviluppare una comprensione profonda e completa della geometria visiva, delle texture e delle complesse relazioni spaziali senza fare affidamento su etichette annotate dall'uomo.
I moderni modelli di visione su larga scala utilizzano tipicamente Vision Transformers (ViT) o architetture convoluzionali su larga scala per elaborare gli input visivi. Grazie all’impiego di tecniche di apprendimento auto-supervisionato, come la modellazione di immagini mascherate, questi modelli apprendono prevedendo le parti mancanti di un’immagine o di un fotogramma. Organizzazioni accademiche come lo Stanford Center for Research on Foundation Models hanno dimostrato che aumentare rapidamente il numero di parametri di questi modelli porta a capacità emergenti e pronte all'uso. Ciò consente loro di adattarsi a compiti a valle come il rilevamento di oggetti ad alta velocità e la segmentazione dettagliata delle immagini con una messa a punto minima.
Gli LVM stanno rivoluzionando i vari settori industriali grazie alla loro capacità di gestire analisi visive complesse che in precedenza richiedevano algoritmi altamente specializzati e specificamente addestrati.
Per comprendere appieno il panorama dell'intelligenza artificiale, è utile distinguere gli LVM dagli altri modelli di base più diffusi:
Mentre gli LVM di grandi dimensioni richiedono spesso cluster di server che eseguono PyTorch o TensorFlow, modelli di visione di base altamente ottimizzati come Ultralytics portano un'intelligenza visiva potente e all'avanguardia direttamente negli ambienti edge locali. L'esempio seguente mostra come eseguire un'inferenza visiva robusta utilizzando un modello pre-addestrato:
from ultralytics import YOLO
# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")
# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the predicted visual relationships
results[0].show()
Il passaggio dalla ricerca accademica pubblicata su arXiv e sulla biblioteca digitale IEEE Xplore all'applicazione pratica in ambito aziendale sta subendo una rapida accelerazione. Le innovazioni provenienti da gruppi di ricerca come Google stanno attivamente estendendo gli LVM al dominio temporale, consentendo ai modelli di comprendere sequenze video complesse simili a quelle generate da Sora di OpenAI.
Per gli sviluppatori e le organizzazioni che desiderano realizzare soluzioni personalizzate di intelligenza artificiale visiva, la Ultralytics offre strumenti integrati per l’annotazione dei set di dati in team, l’addestramento nel cloud e l’implementazione semplificata dei modelli, rendendo le funzionalità avanzate di visione accessibili a tutti. Inoltre, strumenti di segmentazione zero-shot come Segment Anything 2 (SAM )di Meta dimostrano come gli approcci di visione di base su larga scala — spesso descritti in dettaglio nella ACM Digital Library— stiano standardizzando la complessa comprensione a livello di pixel in tutto il settore dell'IA.
Inizia il tuo viaggio con il futuro del machine learning