Computer Vision (CV)
Erkunde die Grundlagen von Computer Vision (CV). Lerne, wie Ultralytics YOLO26 und die Ultralytics Platform Objekterkennung, Segmentierung und mehr ermöglichen.
Computer Vision (CV) ist ein anspruchsvoller Bereich der künstlichen Intelligenz (KI), der es Computern und Systemen ermöglicht, aussagekräftige Informationen aus digitalen Bildern, Videos und anderen visuellen Eingaben abzuleiten. Während das menschliche Sehvermögen die angeborene Fähigkeit besitzt, Umgebungen sofort wahrzunehmen und zu verstehen, müssen Computer darauf trainiert werden, Muster zu erkennen und Pixel zu interpretieren. Durch den Einsatz von Machine Learning (ML) und speziell Deep Learning (DL) Algorithmen können CV-Systeme visuelle Daten erfassen, verarbeiten und auf Basis dieser Informationen Empfehlungen aussprechen oder Maßnahmen ergreifen.
Link to this sectionWie Computer Vision funktioniert#
Im Kern sieht ein Computer ein Bild als ein Array von numerischen Werten, die Pixel repräsentieren. Moderne CV stützt sich stark auf Convolutional Neural Networks (CNNs), die darauf ausgelegt sind, das Konnektivitätsmuster von Neuronen im menschlichen Gehirn nachzuahmen. Diese Netzwerke lernen, eine Hierarchie von Merkmalen zu identifizieren – von einfachen Kanten und Texturen bis hin zu komplexen Formen und Objekten – durch einen Prozess namens Merkmalsextraktion.
Um effektiv zu funktionieren, benötigen diese Modelle riesige Mengen an Trainingsdaten. Um beispielsweise ein Auto zu erkennen, muss ein Modell Tausende von beschrifteten Bildern von Autos unter verschiedenen Bedingungen verarbeiten. Tools wie die Ultralytics Platform optimieren diesen Workflow und ermöglichen es dir, Datensätze zu annotieren, Modelle in der Cloud zu trainieren und sie effizient bereitzustellen.
Link to this sectionKernaufgaben in der Computer Vision#
Computer Vision ist keine einzelne Funktion, sondern eine Sammlung verschiedener Aufgaben, die jeweils ein spezifisches Problem lösen:
- Bildklassifizierung: Diese Aufgabe weist einem gesamten Bild ein Klassen-Label zu und beantwortet die Frage: „Was ist auf diesem Bild zu sehen?“ (z. B. die Unterscheidung zwischen einer Katze und einem Hund).
- Objekterkennung: Einen Schritt weiter gehend, identifiziert die Erkennung einzelne Objekte innerhalb eines Bildes und zeichnet eine Bounding Box darum. Dies ist entscheidend für das Zählen von Elementen oder das Lokalisieren spezifischer Merkmale.
- Instanz-Segmentierung: Dies bietet eine präzise Maske auf Pixelebene für jedes erkannte Objekt und trennt einzelne Instanzen derselben Klasse. Dies ist entscheidend für Anwendungen, die eine hohe Präzision erfordern, wie etwa die Analyse von medizinischen Bildern.
- Pose Estimation: Dies beinhaltet die Erkennung spezifischer Schlüsselpunkte an einem Objekt, wie etwa die Gelenke eines menschlichen Körpers, um Bewegungen und Haltungen zu verfolgen.
Link to this sectionPraxisanwendungen#
Der Nutzen von Computer Vision erstreckt sich über nahezu jede Branche und automatisiert Aufgaben, die zuvor das menschliche Auge erforderten.
- Fertigung und Qualitätskontrolle: In industriellen Umgebungen wird CV oft als Machine Vision bezeichnet. Es wird zur Automatisierung der Qualitätsprüfung eingesetzt, um kleinste Defekte an Produkten am Fließband schneller und genauer zu erkennen als menschliche Prüfer. Beispielsweise ermöglicht KI in der Fertigung die Echtzeitüberwachung von Anlagen, um Ausfälle zu verhindern.
- Autonomer Transport: Selbstfahrende Autos verlassen sich vollständig auf CV, um sicher zu navigieren. Durch die Verarbeitung von Eingaben von Kameras und LiDAR-Sensoren führen diese Fahrzeuge eine 3D-Objekterkennung durch, um Fußgänger, andere Fahrzeuge und Verkehrsschilder in Echtzeit zu identifizieren. Dies ist ein entscheidender Bestandteil, um ein hohes Maß an Fahrzeugautomatisierung zu erreichen.
- Gesundheitswesen und Diagnostik: Radiologen nutzen CV, um Anomalien in Röntgenaufnahmen, MRTs und CT-Scans zu identifizieren. KI im Gesundheitswesen hilft bei der Früherkennung von Krankheiten, wie etwa der Identifizierung von Tumoren, indem Regionen von Interesse hervorgehoben werden, die dem bloßen Auge entgehen könnten.
Link to this sectionComputer Vision vs. Bildverarbeitung#
Es ist wichtig, CV von der Bildverarbeitung zu unterscheiden, obwohl sie oft zusammenarbeiten.
- Bildverarbeitung beinhaltet die Manipulation eines Bildes, um es zu verbessern oder Informationen zu extrahieren (z. B. Anpassung von Helligkeit, Kontrast oder Anwendung von Filtern wie in Adobe Photoshop). Das Ergebnis ist in der Regel ein weiteres Bild.
- Computer Vision nimmt ein Bild als Eingabe und gibt Informationen oder eine Interpretation aus (z. B. „Es sind drei Personen in diesem Raum“). CV verwendet Techniken der Bildverarbeitung, um Bilder für die Analyse durch neuronale Netzwerke vorzubereiten.
Link to this sectionImplementierung von Computer Vision mit Python#
Moderne Bibliotheken haben die Implementierung leistungsstarker CV-Modelle zugänglich gemacht. Das folgende Beispiel zeigt, wie du das modernste YOLO26 Modell lädst, um Objekte in einem Bild mit dem ultralytics Paket zu erkennen.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()Dieses einfache Skript nutzt ein vortrainiertes Modell, um komplexe Inferenzaufgaben durchzuführen, was die Zugänglichkeit moderner KI-Tools demonstriert. Für Entwickler, die über statische Bilder hinausgehen möchten, bietet CV auch Unterstützung für Video-Verständnis und Echtzeit-Tracking-Systeme, die in Sicherheit und Sportanalytik eingesetzt werden. Durch die Integration mit Bibliotheken wie OpenCV können Entwickler umfassende Anwendungen erstellen, die die visuelle Welt erfassen, verarbeiten und analysieren.






