Glossario

Visione artificiale (CV)

Liberate il potenziale dell'intelligenza artificiale con la Computer Vision! Esplorate il suo ruolo nel rilevamento degli oggetti, nell'assistenza sanitaria, nelle auto a guida autonoma e altro ancora. Per saperne di più!

La computer vision (CV) è un campo dell'intelligenza artificiale (AI) che addestra i computer a interpretare e comprendere il mondo visivo. Utilizzando immagini digitali provenienti da fotocamere, video e modelli di deep learning, le macchine possono identificare e classificare accuratamente gli oggetti e quindi reagire a ciò che "vedono". L'obiettivo è consentire ai computer di replicare la visione umana, un compito che comporta l'elaborazione e l'analisi di grandi quantità di dati visivi per dare loro un senso. Questo campo è cresciuto rapidamente grazie ai progressi dell'apprendimento profondo e alla disponibilità di grandi insiemi di dati.

Come funziona la visione artificiale

La computer vision funziona applicando algoritmi di apprendimento automatico (ML) ai dati visivi. Invece di essere esplicitamente programmato per riconoscere un oggetto, un modello di CV impara a identificare modelli da migliaia o milioni di immagini etichettate. Per esempio, per addestrare un modello a riconoscere i gatti, gli vengono somministrate innumerevoli immagini di gatti finché non impara a distinguere le caratteristiche di un gatto da solo.

Il CV moderno si basa molto sui modelli di apprendimento profondo, in particolare sulle reti neurali convoluzionali (CNN). Una CNN è un tipo di rete neurale molto efficace nell'elaborazione dei dati delle immagini. Funziona applicando filtri (o kernel) a un'immagine per creare mappe di caratteristiche che evidenziano caratteristiche importanti come bordi, texture e forme. Queste reti sono alla base di molti compiti comuni di computer vision, consentendo alle macchine di analizzare le informazioni visive con una precisione sempre maggiore.

Visione artificiale ed elaborazione delle immagini

Pur essendo strettamente correlate, la computer vision e l'elaborazione delle immagini non sono la stessa cosa. L 'elaborazione delle immagini è un sottoinsieme della CV che si concentra sulla manipolazione delle immagini digitali per migliorarle o estrarre informazioni utili. Comporta operazioni come la nitidezza, la sfocatura o il filtraggio di un'immagine. La computer vision, invece, si spinge oltre, mirando a interpretare e comprendere il contenuto dell'immagine. Ad esempio, l'elaborazione delle immagini può essere utilizzata per migliorare la qualità di una foto, mentre la computer vision viene utilizzata per identificare le persone, gli oggetti e la scena all'interno della foto. Per saperne di più sulla distinzione è possibile consultare questa panoramica dettagliata sull'elaborazione digitale delle immagini.

Compiti chiave nella visione artificiale

La computer vision comprende diverse attività chiave che consentono alle macchine di analizzare e interpretare i dati visivi:

  • Rilevamento di oggetti: Si tratta di identificare e localizzare gli oggetti all'interno di un'immagine o di un video. Un modello come Ultralytics YOLO disegna un riquadro di delimitazione attorno a ciascun oggetto rilevato e gli assegna un'etichetta di classe.
  • Classificazione delle immagini: Questo compito prevede l'assegnazione di una singola etichetta a un'intera immagine da un insieme predefinito di categorie. Ad esempio, classificare un'immagine come contenente un "gatto" o un "cane".
  • Segmentazione delle immagini: A differenza del rilevamento degli oggetti, la segmentazione classifica ogni pixel di un'immagine. Fornisce una comprensione molto più dettagliata del contenuto dell'immagine. Le sottoattività comprendono la segmentazione delle istanze e la segmentazione semantica.
  • Stima della posa: Viene utilizzata per determinare la posizione e l'orientamento di una persona o di un oggetto nello spazio. È ampiamente utilizzata nella robotica, nella realtà aumentata e nell'analisi dell'attività umana.
  • Tracciamento di oggetti: Questo compito consiste nel seguire uno o più oggetti nel tempo in una sequenza video. È fondamentale per applicazioni come la sorveglianza e la navigazione autonoma.

Applicazioni del mondo reale

Le applicazioni di visione artificiale sono sempre più diffuse in vari settori:

Strumenti e strutture

Lo sviluppo e la distribuzione di modelli di computer vision sono facilitati da vari strumenti e framework. Librerie come PyTorch (visitate il sito ufficiale di PyTorch) e TensorFlow (visitate il sito ufficiale di TensorFlow) sono fondamentali per la creazione di modelli. Librerie open-source come OpenCV forniscono una vasta collezione di funzioni per la visione artificiale in tempo reale.

Piattaforme come Ultralytics HUB semplificano l'intero ciclo di vita di un progetto di CV, dalla gestione dei set di dati all'addestramento di modelli personalizzati fino alla distribuzione. L'uso di formati standardizzati come ONNX contribuisce inoltre a garantire l'interoperabilità tra diversi framework. Man mano che queste tecnologie maturano, continueranno a guidare l'innovazione in tutti i settori.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti