Entfesseln Sie das Potenzial der KI mit Computer Vision! Entdecken Sie ihre Rolle bei Objekterkennung, Gesundheitswesen, selbstfahrenden Autos und mehr. Erfahren Sie jetzt mehr!
Computer Vision (CV) ist ein hochentwickeltes Gebiet der Künstlichen Intelligenz (KI), das es Computern und Systemen ermöglicht, aus digitalen Bildern, Videos und anderen visuellen Eingaben aussagekräftige Informationen abzuleiten. Während das menschliche Sehvermögen die angeborene Fähigkeit besitzt, die Umgebung sofort wahrzunehmen und zu verstehen, müssen Computer trainiert werden, um Muster zu erkennen und Pixel zu interpretieren. Durch den Einsatz von Algorithmen des maschinellen Lernens (ML) und insbesondere des Deep Learning (DL) können CV-Systeme visuelle Daten aufnehmen, verarbeiten und auf der Grundlage dieser Informationen Empfehlungen aussprechen oder Maßnahmen ergreifen.
Im Kern sieht ein Computer ein Bild als eine Reihe von Zahlenwerten, die Pixel darstellen. Die moderne CV stützt sich stark auf Convolutional Neural Networks (CNNs), die so konzipiert sind, dass sie das Verbindungsmuster von Neuronen im menschlichen Gehirn nachahmen. Diese Netzwerke lernen, eine Hierarchie von Merkmalen zu identifizieren – von einfachen Kanten und Texturen bis hin zu komplexen Formen und Objekten – durch einen Prozess, der als Feature-Extraktion bezeichnet wird.
Um effektiv zu funktionieren, benötigen diese Modelle riesige Mengen an Trainingsdaten. Um beispielsweise ein Auto zu erkennen, muss ein Modell Tausende von beschrifteten Bildern von Autos in verschiedenen Zuständen verarbeiten. Tools wie die Ultralytics optimieren diesen Arbeitsablauf und ermöglichen es Benutzern, Datensätze zu annotieren, Modelle in der Cloud zu trainieren und sie effizient einzusetzen.
Computersicht ist keine einzelne Funktion, sondern eine Sammlung unterschiedlicher Aufgaben, von denen jede ein bestimmtes Problem löst:
Der Nutzen der Computervision erstreckt sich über nahezu alle Branchen und automatisiert Aufgaben, die zuvor menschliche Augen erforderten.
Es ist wichtig, CV von der Bildverarbeitung zu unterscheiden, obwohl sie oft zusammenarbeiten.
Moderne Bibliotheken haben die Implementierung leistungsfähiger CV-Modelle zugänglich gemacht. Das folgende Beispiel zeigt, wie man die
modernsten YOLO26 Modell zur detect in einem Bild
unter Verwendung der ultralytics Paket.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
Dieses einfache Skript nutzt ein vortrainiertes Modell, um komplexe Inferenzaufgaben auszuführen, und demonstriert damit die Zugänglichkeit moderner KI-Tools. Für Entwickler, die über statische Bilder hinausgehen möchten, bietet CV auch Video Understanding und Echtzeit-Tracking-Systeme für den Einsatz in den Bereichen Sicherheit und Sportanalyse. Durch die Integration mit Bibliotheken wie OpenCVkönnen Entwickler umfassende Anwendungen erstellen, die die visuelle Welt erfassen, verarbeiten und analysieren.