Sblocca il potenziale dell'IA con la Computer Visione! Esplora il suo ruolo nel rilevamento di oggetti, nella sanità, nelle auto a guida autonoma e altro ancora. Scopri di più ora!
La visione computerizzata (CV) è un campo di trasformazione dell'intelligenza intelligenza artificiale (AI) che che consente ai computer di percepire, interpretare e comprendere il mondo visivo. Elaborando immagini digitali, video e immagini digitali, video e altri input visivi, le macchine possono estrarre informazioni significative e intraprendere azioni o formulare raccomandazioni sulla base di tale analisi. analisi. Mentre la visione umana si affida all'occhio e al cervello per contestualizzare istantaneamente l'ambiente circostante, la visione computerizzata impiega software avanzati e algoritmi di algoritmi di apprendimento automatico (ML) per riprodurre questa questa capacità, consentendo ai sistemi di automatizzare compiti che prima richiedevano la vista umana.
La visione computerizzata si basa essenzialmente su tecniche di riconoscimento dei modelli per comprendere i dati dati visivi. I primi tentativi prevedevano la codifica manuale di regole per definire gli oggetti, ma la moderna CV è guidata dal deep learning (DL) e da grandi quantità di addestramento. apprendimento profondo (DL) e da grandi quantità di dati di dati di addestramento. L'architettura più comunemente utilizzata oggi è la La rete neurale convoluzionale (CNN), che elabora le immagini pixel per pixel. Queste reti identificano le caratteristiche di basso livello, come bordi e texture, negli strati iniziali. strati iniziali e le combinano per riconoscere concetti complessi, come volti o veicoli, negli strati più profondi. Questo processo richiede un'enorme quantità di dati etichettati per insegnare al modello come distinguere efficacemente tra le diverse categorie.
La visione artificiale non è una singola azione, ma un insieme di compiti specifici che risolvono problemi diversi:
È comune confondere la computer vision con l 'elaborazione digitale delle immagini, ma i loro scopi sono diversi. L'elaborazione delle immagini si concentra sulla manipolazione di un'immagine in ingresso per migliorarne la qualità o estrarre informazioni o estrarre informazioni senza necessariamente "capirla". Esempi comuni sono la regolazione della luminosità l'applicazione di filtri o la riduzione del rumore. Al contrario, CV si concentra sulla comprensione delle immagini, dove l'obiettivo è emulare la cognizione umana per interpretare ciò che l'immagine rappresenta.
L'utilità della visione computerizzata si estende praticamente a tutti i settori, favorendo l'efficienza e la sicurezza:
Gli sviluppatori possono implementare potenti attività di visione computerizzata utilizzando l'applicazione ultralytics pacchetto Python . L'esempio
mostra come caricare il pacchetto Modello YOLO11-l'ultima versione
versione stabile, consigliata per tutti i casi d'uso standard, per detect oggetti in un'immagine.
from ultralytics import YOLO
# Load the pretrained YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results to see bounding boxes and labels
results[0].show()
L'ecosistema CV è supportato da solide librerie open-source. OpenCV è una libreria fondamentale che fornisce migliaia di algoritmi per la visione artificiale in tempo reale. Per la costruzione e l'addestramento di modelli di deep learning, framework come PyTorch e TensorFlow sono gli standard standard del settore. Ultralytics si basa su queste fondamenta per fornire modelli all'avanguardia e facili da implementare. In prospettiva, la Ultralytics Platform fornisce un ambiente completo per la gestione dell'intero ciclo di vita di Vision AI, dalla gestione dei dati alla distribuzione.