Computer Vision (CV)
Esplora i fondamenti della Computer Vision (CV). Impara come Ultralytics YOLO26 e la piattaforma Ultralytics abilitano il rilevamento di oggetti, la segmentazione e altro ancora.
La Computer Vision (CV) è un campo sofisticato dell'Intelligenza Artificiale (AI) che consente a computer e sistemi di ricavare informazioni significative da immagini digitali, video e altri input visivi. Mentre la visione umana ha l'innata capacità di percepire e comprendere istantaneamente l'ambiente circostante, i computer devono essere addestrati a riconoscere schemi e interpretare i pixel. Sfruttando algoritmi di Machine Learning (ML) e nello specifico di Deep Learning (DL), i sistemi di CV possono acquisire dati visivi, elaborarli e fornire raccomandazioni o intraprendere azioni basate su tali informazioni.
Link to this sectionCome funziona la Computer Vision#
Fondamentalmente, un computer vede un'immagine come una matrice di valori numerici che rappresentano i pixel. La CV moderna si basa pesantemente sulle Convolutional Neural Networks (CNNs), progettate per imitare il pattern di connettività dei neuroni nel cervello umano. Queste reti imparano a identificare una gerarchia di caratteristiche—da semplici bordi e texture a forme e oggetti complessi—attraverso un processo chiamato feature extraction.
Per funzionare in modo efficace, questi modelli richiedono enormi quantità di training data. Ad esempio, per riconoscere un'auto, un modello deve elaborare migliaia di immagini etichettate di auto in varie condizioni. Strumenti come la Ultralytics Platform semplificano questo flusso di lavoro, consentendoti di annotare set di dati, addestrare modelli nel cloud e distribuirli in modo efficiente.
Link to this sectionCompiti principali nella Computer Vision#
La computer vision non è una singola funzione, ma un insieme di compiti distinti, ognuno dei quali risolve uno specifico problema:
- Image Classification: Questo compito assegna un'etichetta di classe a un'intera immagine, rispondendo alla domanda: "Cosa c'è in questa immagine?" (ad esempio, distinguere tra un gatto e un cane).
- Object Detection: Facendo un passo avanti, la detection identifica oggetti distinti all'interno di un'immagine e disegna un bounding box attorno a essi. Ciò è fondamentale per contare elementi o localizzare caratteristiche specifiche.
- Instance Segmentation: Questo fornisce una maschera precisa a livello di pixel per ogni oggetto rilevato, separando singole istanze della stessa classe. È vitale per applicazioni che richiedono un'elevata precisione, come l'analisi di medical images.
- Pose Estimation: Questo comporta il rilevamento di specifici keypoint su un oggetto, come le articolazioni di un corpo umano, per tracciarne il movimento e la postura.
Link to this sectionApplicazioni nel mondo reale#
L'utilità della computer vision si estende praticamente a ogni settore, automatizzando compiti che in precedenza richiedevano l'occhio umano.
- Produzione e controllo qualità: In contesti industriali, la CV è spesso indicata come Machine Vision. Viene utilizzata per automatizzare il quality inspection, rilevando difetti minimi nei prodotti su una linea di assemblaggio più velocemente e con maggiore precisione rispetto agli ispettori umani. Ad esempio, l'AI in Manufacturing consente il monitoraggio in tempo reale delle apparecchiature per prevenire guasti.
- Trasporti autonomi: Le auto a guida autonoma si affidano interamente alla CV per navigare in sicurezza. Elaborando l'input da telecamere e LiDAR sensors, questi veicoli eseguono la 3D Object Detection per identificare pedoni, altri veicoli e segnali stradali in tempo reale. Questo è un componente critico per raggiungere alti livelli di vehicle automation.
- Sanità e diagnostica: I radiologi utilizzano la CV per assistere nell'identificazione di anomalie in raggi X, risonanze magnetiche e scansioni TC. L'AI in Healthcare aiuta nella diagnosi precoce delle malattie, come l'identificazione di tumori, evidenziando regioni di interesse che potrebbero sfuggire a occhio nudo.
Link to this sectionComputer Vision vs. Elaborazione delle immagini#
È importante distinguere la CV dall'Image Processing, sebbene spesso lavorino insieme.
- L'Image Processing comporta la manipolazione di un'immagine per migliorarla o estrarne informazioni (ad esempio, regolare luminosità, contrasto o applicare filtri come quelli in Adobe Photoshop). L'output è solitamente un'altra immagine.
- La Computer Vision prende un'immagine come input e produce come output informazioni o un'interpretazione (ad esempio, "Ci sono tre persone in questa stanza"). La CV utilizza tecniche di elaborazione delle immagini per preparare le immagini all'analisi da parte delle Neural Networks.
Link to this sectionImplementare la Computer Vision con Python#
Le librerie moderne hanno reso accessibile l'implementazione di potenti modelli di CV. L'esempio seguente mostra come caricare il modello all'avanguardia YOLO26 per rilevare oggetti in un'immagine utilizzando il pacchetto ultralytics.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()Questo semplice script utilizza un modello pre-addestrato per eseguire complessi compiti di inference, dimostrando l'accessibilità dei moderni strumenti di IA. Per gli sviluppatori che desiderano andare oltre le immagini statiche, la CV alimenta anche il Video Understanding e i sistemi di tracciamento in tempo reale utilizzati nella sicurezza e nell'analisi sportiva. Integrandosi con librerie come OpenCV, puoi costruire applicazioni complete che catturano, elaborano e analizzano il mondo visivo.






