Esplora i fondamenti della visione artificiale (CV). Scopri come Ultralytics e la Ultralytics consentono il rilevamento di oggetti, la segmentazione e molto altro ancora.
La visione artificiale (CV) è un campo sofisticato dell' intelligenza artificiale (AI) che consente ai computer e ai sistemi di ricavare informazioni significative da immagini digitali, video e altri input visivi. Mentre la vista umana ha la capacità innata di percepire e comprendere istantaneamente l'ambiente circostante, i computer devono essere addestrati a riconoscere modelli e interpretare i pixel. Sfruttando il Machine Learning (ML) e in particolare gli algoritmi di Deep Learning (DL), i sistemi CV possono acquisire dati visivi, elaborarli e formulare raccomandazioni o intraprendere azioni sulla base di tali informazioni.
Fondamentalmente, un computer vede un'immagine come una serie di valori numerici che rappresentano i pixel. Il CV moderno si basa in gran parte sulle reti neurali convoluzionali (CNN), progettate per imitare il modello di connettività dei neuroni nel cervello umano. Queste reti imparano a identificare una gerarchia di caratteristiche, dai semplici bordi e texture alle forme e agli oggetti complessi, attraverso un processo chiamato estrazione delle caratteristiche.
Per funzionare in modo efficace, questi modelli richiedono grandi quantità di dati di addestramento. Ad esempio, per riconoscere un'auto, un modello deve elaborare migliaia di immagini etichettate di auto in varie condizioni. Strumenti come la Ultralytics semplificano questo flusso di lavoro, consentendo agli utenti di annotare i set di dati, addestrare i modelli nel cloud e distribuirli in modo efficiente.
La visione artificiale non è una singola funzione, ma un insieme di compiti distinti, ciascuno dei quali risolve un problema specifico:
L'utilità della visione artificiale si estende praticamente a tutti i settori industriali, automatizzando compiti che in precedenza richiedevano l'intervento umano .
È importante distinguere il CV dall' elaborazione delle immagini, anche se spesso lavorano insieme.
Le librerie moderne hanno reso accessibile l'implementazione di potenti modelli CV. L'esempio seguente mostra come caricare lo
stato dell'arte YOLO26 modello per detect in un'immagine
utilizzando il ultralytics pacchetto.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
Questo semplice script utilizza un modello pre-addestrato per eseguire complesse attività di inferenza, dimostrando l'accessibilità dei moderni strumenti di IA. Per gli sviluppatori che desiderano andare oltre le immagini statiche, CV alimenta anche sistemi di comprensione video e tracciamento in tempo reale utilizzati nella sicurezza e nell'analisi sportiva. Integrandosi con librerie come OpenCV, gli sviluppatori possono creare applicazioni complete che catturano, elaborano e analizzano il mondo visivo.