Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Arten von KI-Lerntechniken, die in der Computer Vision verwendet werden

Abirami Vina

4 Min. Lesezeit

6. November 2024

Entdecken Sie die verschiedenen Arten von Machine-Learning- und Deep-Learning-Techniken, die in Computer-Vision-Anwendungen eingesetzt werden, vom Supervised Learning bis zum Transfer Learning.

Maschinelles Lernen ist eine Art von künstlicher Intelligenz (KI), die Computern hilft, aus Daten zu lernen, sodass sie selbstständig Entscheidungen treffen können, ohne dass für jede Aufgabe eine detaillierte Programmierung erforderlich ist. Es beinhaltet die Erstellung von algorithmischen Modellen, die Muster in Daten erkennen können. Durch das Erkennen von Mustern in Daten und das Lernen aus ihnen können diese Algorithmen ihre Leistung im Laufe der Zeit schrittweise verbessern.

Ein Bereich, in dem maschinelles Lernen eine entscheidende Rolle spielt, ist Computer Vision, ein Bereich der KI, der sich auf visuelle Daten konzentriert. Computer Vision verwendet maschinelles Lernen, um Computern zu helfen, Muster in Bildern und Videos zu erkennen. Angetrieben durch Fortschritte im maschinellen Lernen wird der globale Marktwert von Computer Vision bis 2032 auf rund 175,72 Milliarden US-Dollar geschätzt. 

In diesem Artikel werden wir uns die verschiedenen Arten von maschinellem Lernen ansehen, die in Computer Vision verwendet werden, einschließlich überwachtem, unüberwachtem, verstärkendem und Transferlernen, und wie jedes einzelne in verschiedenen Anwendungen eine Rolle spielt. Los geht's!

Überblick über maschinelles Lernen in der Computer Vision

Computer Vision stützt sich auf maschinelles Lernen, insbesondere auf Techniken wie Deep Learning und neuronale Netze, um visuelle Informationen zu interpretieren und zu analysieren. Diese Methoden ermöglichen es Computern, Computer-Vision-Aufgaben wie das Erkennen von Objekten in Bildern, das Klassifizieren von Bildern nach Kategorien und das Erkennen von Gesichtern auszuführen. Maschinelles Lernen ist auch für Computer-Vision-Anwendungen in Echtzeit wie die Qualitätskontrolle in der Fertigung und die medizinische Bildgebung im Gesundheitswesen unerlässlich. In diesen Fällen helfen neuronale Netze Computern, komplexe visuelle Daten zu interpretieren, z. B. Gehirnscans zu analysieren, um Tumore zu erkennen

Tatsächlich basieren viele fortschrittliche Computer-Vision-Modelle, wie Ultralytics YOLO11, auf neuronalen Netzen. 

Abb. 1. Segmentierung von Gehirnscans mit Ultralytics YOLO11.

Es gibt verschiedene Lernmethoden im Machine Learning, wie z. B. überwachtes Lernen, unüberwachtes Lernen, Transferlernen und bestärkendes Lernen, die die Grenzen des Möglichen im Bereich Computer Vision erweitern. In den folgenden Abschnitten werden wir jede dieser Arten untersuchen, um zu verstehen, wie sie zur Computer Vision beitragen.

Erkundung des überwachten Lernens

Supervised Learning ist die am häufigsten verwendete Art des maschinellen Lernens. Beim Supervised Learning werden Modelle mit gelabelten Daten trainiert. Jede Eingabe wird mit der korrekten Ausgabe versehen, was dem Modell hilft, zu lernen. Ähnlich wie ein Schüler, der von einem Lehrer lernt, fungieren diese gelabelten Daten als Leitfaden oder Supervisor.

Während des Trainings erhält das Modell sowohl Eingabedaten (die Informationen, die es verarbeiten muss) als auch Ausgabedaten (die richtigen Antworten). Dieses Setup hilft dem Modell, die Verbindung zwischen Eingaben und Ausgaben zu erlernen. Das Hauptziel des überwachten Lernens ist es, dass das Modell eine Regel oder ein Muster entdeckt, das jede Eingabe genau mit ihrer korrekten Ausgabe verknüpft. Mit dieser Zuordnung kann das Modell genaue Vorhersagen treffen, wenn es auf neue Daten trifft. Zum Beispiel stützt sich die Gesichtserkennung in der Computer Vision auf überwachtes Lernen, um Gesichter anhand dieser gelernten Muster zu identifizieren.

Eine gängige Anwendung ist das Entsperren Ihres Smartphones mit Gesichtserkennung. Das Modell wird mit beschrifteten Bildern Ihres Gesichts trainiert, sodass es beim Entsperren Ihres Telefons das Live-Bild mit dem vergleicht, was es gelernt hat. Wenn es eine Übereinstimmung erkennt, wird Ihr Telefon entsperrt.

Abb. 2. Gesichtserkennung kann zum Entsperren Ihres Smartphones verwendet werden.

Wie funktioniert unüberwachtes Lernen in der KI?

Unüberwachtes Lernen ist eine Art des maschinellen Lernens, die unbeschriftete Daten verwendet - dem Modell werden während des Trainings keine Anleitungen oder richtigen Antworten gegeben. Stattdessen lernt es, Muster und Erkenntnisse selbstständig zu entdecken. 

Unüberwachtes Lernen identifiziert Muster anhand von drei Hauptmethoden: 

  • Clustering: Gruppiert ähnliche Datenpunkte zusammen. Es ist nützlich für Aufgaben wie Kundensegmentierung, bei denen ähnliche Kunden anhand ihres Verhaltens oder ihrer Attribute gruppiert werden können.
  • Assoziation: Sie wird verwendet, um Beziehungen zwischen Elementen zu identifizieren und so Verbindungen innerhalb der Daten aufzudecken (z. B. um Produkte zu finden, die oft zusammen gekauft werden, in der Warenkorbanalyse).
  • Dimensionsreduktion: Vereinfacht Datensätze durch Entfernen redundanter Merkmale, was die Visualisierung und Verarbeitung unterstützt. 

Eine wichtige Anwendung des unüberwachten Lernens ist die Bildkomprimierung, bei der Techniken wie K-Means-Clustering die Bildgröße reduzieren, ohne die visuelle Qualität zu beeinträchtigen. Pixel werden in Clustern gruppiert, und jeder Cluster wird durch eine Durchschnittsfarbe dargestellt, was zu einem Bild mit weniger Farben und einer kleineren Dateigröße führt.

Abb. 3. Ein Beispiel für unüberwachte Bildkompression.

Unüberwachtes Lernen hat jedoch auch gewisse Einschränkungen. Ohne vordefinierte Antworten kann es Schwierigkeiten mit der Genauigkeit und der Leistungs-bewertung haben. Es erfordert oft manuellen Aufwand, um Ergebnisse zu interpretieren und Gruppen zu kennzeichnen, und es reagiert empfindlich auf Probleme wie fehlende Werte und Rauschen, was die Qualität der Ergebnisse beeinträchtigen kann.

Reinforcement Learning erklärt

Anders als überwachtes und unüberwachtes Lernen, stützt sich Reinforcement Learning nicht auf Trainingsdaten. Stattdessen verwendet es neuronale Netzwerkagenten, um mit einer Umgebung zu interagieren, um ein bestimmtes Ziel zu erreichen. 

Der Prozess umfasst drei Hauptkomponenten:

  • Agent: Der Lernende oder Entscheidungsträger.
  • Umgebung: Alles, womit der Agent interagiert, sei es real oder virtuell.
  • Belohnungssignal: Ein numerischer Wert, der nach jeder Aktion gegeben wird und den Agenten zum Ziel führt.

Wenn der Agent Aktionen ausführt, beeinflusst er die Umgebung, die dann mit Feedback reagiert. Das Feedback hilft dem Agenten, seine Entscheidungen zu bewerten und sein Verhalten anzupassen. Das Belohnungssignal hilft dem Agenten zu verstehen, welche Aktionen ihn der Erreichung seines Ziels näher bringen.

Reinforcement Learning ist entscheidend für Anwendungsfälle wie autonomes Fahren und Robotik. Beim autonomen Fahren lernen Aufgaben wie Fahrzeugsteuerung, Objekterkennung und -vermeidung auf der Grundlage von Feedback. Modelle werden mithilfe von neuronalen Netzwerkagenten trainiert, um Fußgänger oder andere Objekte zu erkennen und geeignete Maßnahmen zur Vermeidung von Kollisionen zu ergreifen. In ähnlicher Weise ermöglicht Reinforcement Learning in der Robotik Aufgaben wie Objektmanipulation und Bewegungssteuerung.

Ein hervorragendes Beispiel für Reinforcement Learning in Aktion ist ein Projekt von OpenAI, bei dem Forscher KI-Agenten trainiert haben, um das beliebte Multiplayer-Videospiel Dota 2 zu spielen. Mithilfe von neuronalen Netzen verarbeiteten diese Agenten riesige Mengen an Informationen aus der Spielumgebung, um schnelle, strategische Entscheidungen zu treffen. Durch kontinuierliches Feedback lernten und verbesserten sich die Agenten im Laufe der Zeit und erreichten schließlich ein so hohes Fähigkeitsniveau, dass sie einige der besten Spieler des Spiels schlugen

Abb. 4. Menschliche vs. KI-Interpretation der Dota-Matrix.

Die Grundlagen des Transferlernens verstehen

Transfer Learning unterscheidet sich von anderen Lernarten. Anstatt ein Modell von Grund auf neu zu trainieren, wird ein vorab trainiertes Modell auf einem großen Datensatz verwendet und für eine neue, aber verwandte Aufgabe feinabgestimmt. Das während des anfänglichen Trainings gewonnene Wissen wird verwendet, um die Leistung der neuen Aufgabe zu verbessern. Transfer Learning reduziert die Zeit, die für das Training für eine neue Aufgabe benötigt wird, abhängig von ihrer Komplexität. Es funktioniert, indem es die anfänglichen Schichten des Modells beibehält, die die allgemeinen Merkmale erfassen, und die letzten Schichten durch die der neuen spezifischen Aufgabe ersetzt. 

Der künstlerische Stiltransfer ist eine interessante Anwendung des Transferlernens im Bereich Computer Vision. Diese Technik ermöglicht es einem Modell, ein Bild so zu transformieren, dass es dem Stil verschiedener Kunstwerke entspricht. Um dies zu erreichen, wird ein neuronales Netzwerk zunächst mit einem großen Datensatz von Bildern trainiert, die mit ihren künstlerischen Stilen gepaart sind. Durch diesen Prozess lernt das Modell, allgemeine Bildmerkmale und Stilmuster zu identifizieren.

Sobald das Modell trainiert ist, kann es feinabgestimmt werden, um den Stil eines bestimmten Gemäldes auf ein neues Bild anzuwenden. Das Netzwerk passt sich an das neue Bild an, während es die gelernten Stilmerkmale beibehält, sodass es ein einzigartiges Ergebnis erzeugen kann, das den ursprünglichen Inhalt mit dem ausgewählten künstlerischen Stil kombiniert. Sie könnten zum Beispiel ein Foto einer Bergkette machen und den Stil von Edvard Munchs Der Schrei anwenden, was zu einem Bild führt, das die Szene einfängt, aber mit dem kühnen, ausdrucksstarken Stil des Gemäldes.

Abb. 5. Ein Beispiel für künstlerischen Stiltransfer mithilfe von Transfer Learning.

Ein Blick auf die Unterschiede zwischen den verschiedenen Arten des maschinellen Lernens

Nachdem wir nun die wichtigsten Arten des maschinellen Lernens behandelt haben, wollen wir uns jede einzelne genauer ansehen, um Ihnen zu helfen, die beste Lösung für verschiedene Anwendungen zu finden.

  • Überwachtes Lernen (Supervised Learning): Dieser Typ ist sehr genau, wenn er mit gelabelten Daten arbeitet, benötigt aber viele Daten und kann empfindlich auf Rauschen reagieren.
  • Unüberwachtes Lernen: Es ist nützlich, um unbeschriftete Daten zu untersuchen und versteckte Muster zu finden, obwohl die Ergebnisse möglicherweise weniger präzise und schwieriger zu interpretieren sind.
  • Reinforcement Learning: Es trainiert Agenten, schrittweise Entscheidungen in komplexen Umgebungen zu treffen, erfordert aber oft erhebliche Rechenleistung.
  • Transfer Learning: Dieser Ansatz verwendet vortrainierte Modelle, um das Training zu beschleunigen und die Leistung bei neuen Aufgaben zu verbessern, insbesondere wenn die Daten begrenzt sind.
Abb. 6. Ein Vergleich aller Arten von maschinellem Lernen. Bild vom Autor.

Die Wahl des richtigen Machine-Learning-Typs hängt von mehreren Faktoren ab. Überwachtes Lernen funktioniert gut, wenn Sie über ausreichend gelabelte Daten und eine klare Aufgabe verfügen. Unüberwachtes Lernen ist nützlich für die Datenerkundung oder wenn nur wenige gelabelte Beispiele vorhanden sind. Reinforcement Learning ist ideal für komplexe Aufgaben, die eine schrittweise Entscheidungsfindung erfordern, während Transfer Learning ideal ist, wenn Daten begrenzt oder Ressourcen knapp sind. Durch die Berücksichtigung dieser Faktoren können Sie den am besten geeigneten Ansatz für Ihr Computer-Vision-Projekt auswählen.

Zusammenfassung

Techniken des maschinellen Lernens können eine Vielzahl von Herausforderungen bewältigen, insbesondere in Bereichen wie Computer Vision. Indem Sie die verschiedenen Arten – überwachtes, unüberwachtes, verstärkendes und Transferlernen – verstehen, können Sie den besten Ansatz für Ihre Bedürfnisse wählen.

 Überwachtes Lernen eignet sich hervorragend für Aufgaben, die eine hohe Genauigkeit und gelabelte Daten erfordern, während unüberwachtes Lernen ideal ist, um Muster in ungelabelten Daten zu finden. Reinforcement Learning funktioniert gut in komplexen, entscheidungsbasierten Umgebungen, und Transfer Learning ist hilfreich, wenn Sie auf vortrainierten Modellen mit begrenzten Daten aufbauen möchten. 

Jede Methode hat einzigartige Stärken und Anwendungen, von der Gesichtserkennung über die Robotik bis hin zum künstlerischen Stiltransfer. Die Wahl des richtigen Typs kann neue Möglichkeiten in Branchen wie dem Gesundheitswesen, der Automobilindustrie und der Unterhaltungsindustrie eröffnen.

Um mehr zu erfahren, besuchen Sie unser GitHub-Repository und treten Sie mit unserer Community in Kontakt. Entdecken Sie KI-Anwendungen in selbstfahrenden Autos und in der Landwirtschaft auf unseren Lösungsseiten. 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert