Arten von AI-Lerntechniken, die in der Computer Vision verwendet werden

Abirami Vina

4 Minuten lesen

6. November 2024

Erforschen Sie die verschiedenen Arten von maschinellem Lernen und Deep-Learning-Techniken, die in Computer-Vision-Anwendungen eingesetzt werden, vom überwachten Lernen bis zum Transfer-Lernen.

Maschinelles Lernen ist eine Form der künstlichen Intelligenz (KI), die Computern hilft, aus Daten zu lernen, damit sie eigenständig Entscheidungen treffen können, ohne dass für jede Aufgabe eine detaillierte Programmierung erforderlich ist. Es geht darum, algorithmische Modelle zu erstellen, die Muster in Daten erkennen können. Durch das Erkennen von Mustern in Daten und das Lernen daraus können diese Algorithmen ihre Leistung im Laufe der Zeit schrittweise verbessern.

Ein Bereich, in dem maschinelles Lernen eine entscheidende Rolle spielt, ist die Computer Vision, ein Bereich der künstlichen Intelligenz, der sich auf visuelle Daten konzentriert. Das maschinelle Sehen nutzt maschinelles Lernen, um Computern zu helfen, Muster in Bildern und Videos zu entdecken und zu erkennen. Angetrieben von den Fortschritten beim maschinellen Lernen wird der globale Marktwert des maschinellen Sehens bis 2032 auf rund 175,72 Milliarden US-Dollar geschätzt. 

In diesem Artikel befassen wir uns mit den verschiedenen Arten des maschinellen Lernens, die in der Computer Vision verwendet werden, einschließlich überwachtem, unüberwachtem, verstärktem und Transfer-Lernen, und wie jede von ihnen in verschiedenen Anwendungen eine Rolle spielt. Fangen wir an!

Überblick über maschinelles Lernen in der Computer Vision

Computer Vision stützt sich auf maschinelles Lernen, insbesondere auf Techniken wie Deep Learning und neuronale Netze, um visuelle Informationen zu interpretieren und zu analysieren. Diese Methoden ermöglichen es Computern, Bildverarbeitungsaufgaben wie die Erkennung von Objekten in Bildern, die Klassifizierung von Bildern nach Kategorien und die Erkennung von Gesichtern durchzuführen. Maschinelles Lernen ist auch für Echtzeit-Computer-Vision-Anwendungen wie die Qualitätskontrolle in der Fertigung und die medizinische Bildgebung im Gesundheitswesen unerlässlich. In diesen Fällen helfen neuronale Netze den Computern bei der Interpretation komplexer visueller Daten, z. B. bei der Analyse von Gehirnscans zur Erkennung von Tumoren

Viele fortschrittliche Computer-Vision-Modelle, wie Ultralytics YOLO11, basieren auf neuronalen Netzen. 

__wf_reserved_inherit
Abb. 1. Segmentierung von Gehirnscans mit Ultralytics YOLO11.

Im Bereich des maschinellen Lernens gibt es verschiedene Arten von Lernmethoden, wie überwachtes Lernen, unüberwachtes Lernen, Transferlernen und Verstärkungslernen, die die Grenzen dessen, was im Bereich des maschinellen Sehens möglich ist, immer weiter verschieben. In den folgenden Abschnitten werden wir jeden dieser Typen untersuchen, um zu verstehen, wie sie zum maschinellen Sehen beitragen.

Erforschung des überwachten Lernens

Überwachtes Lernen ist die am häufigsten verwendete Form des maschinellen Lernens. Beim überwachten Lernen werden Modelle mit markierten Daten trainiert. Jeder Eingabe wird die richtige Ausgabe zugeordnet, was dem Modell beim Lernen hilft. Ähnlich wie ein Schüler, der von einem Lehrer lernt, fungieren diese markierten Daten als Anleitung oder Supervisor.

Während des Trainings erhält das Modell sowohl Eingabedaten (die Informationen, die es verarbeiten muss) als auch Ausgabedaten (die richtigen Antworten). Auf diese Weise lernt das Modell die Verbindung zwischen Eingaben und Ausgaben. Das Hauptziel des überwachten Lernens besteht darin, dass das Modell eine Regel oder ein Muster entdeckt, das jede Eingabe mit der richtigen Ausgabe verknüpft. Mit dieser Zuordnung kann das Modell genaue Vorhersagen machen, wenn es auf neue Daten stößt. Die Gesichtserkennung in der Computer Vision beispielsweise stützt sich auf das überwachte Lernen, um Gesichter auf der Grundlage dieser gelernten Muster zu identifizieren.

Eine häufige Anwendung ist die Entsperrung Ihres Smartphones mit Gesichtserkennung. Das Modell wird auf markierten Bildern Ihres Gesichts trainiert, so dass es, wenn Sie Ihr Telefon entsperren wollen, das Live-Bild mit dem Gelernten vergleicht. Wenn es eine Übereinstimmung feststellt, wird Ihr Telefon entsperrt.

__wf_reserved_inherit
Abb. 2. Die Gesichtserkennung kann zum Entsperren Ihres Smartphones verwendet werden.

Wie funktioniert das unüberwachte Lernen in der KI?

Unüberwachtes Lernen ist eine Art des maschinellen Lernens, bei dem unmarkierte Daten verwendet werden - das Modell erhält während des Trainings keine Anleitung oder richtige Antworten. Stattdessen lernt es, selbständig Muster und Erkenntnisse zu entdecken. 

Unüberwachtes Lernen identifiziert Muster mit drei Hauptmethoden: 

  • Clustering: Gruppiert ähnliche Datenpunkte zusammen. Es ist nützlich für Aufgaben wie die Kundensegmentierung, bei der ähnliche Kunden auf der Grundlage ihres Verhaltens oder ihrer Eigenschaften gruppiert werden können.
  • Assoziation: Sie wird verwendet, um Beziehungen zwischen Elementen zu erkennen und Zusammenhänge in den Daten aufzudecken (z. B. das Auffinden von Produkten, die häufig zusammen gekauft werden, bei der Warenkorbanalyse).
  • Reduzierung der Dimensionalität: Vereinfacht Datensätze durch Entfernen redundanter Merkmale, was die Visualisierung und Verarbeitung erleichtert. 

Eine wichtige Anwendung des unüberwachten Lernens ist die Bildkomprimierung, bei der Techniken wie k-means clustering die Bildgröße reduzieren, ohne die visuelle Qualität zu beeinträchtigen. Pixel werden in Clustern gruppiert, und jedes Cluster wird durch eine durchschnittliche Farbe repräsentiert, was zu einem Bild mit weniger Farben und einer geringeren Dateigröße führt.

__wf_reserved_inherit
Abb. 3. Ein Beispiel für unüberwachte Bildkompression.

Dem unüberwachten Lernen sind jedoch gewisse Grenzen gesetzt. Ohne vordefinierte Antworten kann es Probleme mit der Genauigkeit und Leistungsbewertung geben. Es erfordert oft manuellen Aufwand, um Ergebnisse zu interpretieren und Gruppen zu benennen, und es ist anfällig für Probleme wie fehlende Werte und Rauschen, die die Qualität der Ergebnisse beeinträchtigen können.

Reinforcement Learning erklärt

Im Gegensatz zum überwachten und unüberwachten Lernen ist das verstärkende Lernen nicht auf Trainingsdaten angewiesen. Stattdessen werden neuronale Netzwerkagenten eingesetzt, die mit einer Umgebung interagieren, um ein bestimmtes Ziel zu erreichen. 

Das Verfahren umfasst drei Hauptkomponenten:

  • Agent: Der Lernende oder Entscheidungsträger.
  • Umgebung: Alles, mit dem der Agent interagiert, was real oder virtuell sein kann.
  • Belohnungssignal: Ein numerischer Wert, der nach jeder Aktion vergeben wird und den Agenten zum Ziel führt.

Die Handlungen des Agenten wirken sich auf die Umwelt aus, die daraufhin mit Rückmeldungen reagiert. Das Feedback hilft dem Agenten, seine Entscheidungen zu bewerten und sein Verhalten anzupassen. Das Belohnungssignal hilft dem Agenten zu verstehen, welche Aktionen ihn seinem Ziel näher bringen.

Verstärkungslernen ist der Schlüssel für Anwendungsfälle wie autonomes Fahren und Robotik. Beim autonomen Fahren lernen Aufgaben wie Fahrzeugsteuerung, Objekterkennung und -vermeidung auf der Grundlage von Rückmeldungen. Mit Hilfe neuronaler Netze werden Modelle trainiert, um Fußgänger oder andere Objekte zu erkennen und geeignete Maßnahmen zur Vermeidung von Kollisionen zu ergreifen. In der Robotik ermöglicht das Verstärkungslernen Aufgaben wie Objektmanipulation und Bewegungssteuerung.

Ein großartiges Beispiel für Verstärkungslernen in der Praxis ist ein Projekt von OpenAI, bei dem Forscher KI-Agenten darauf trainierten, das beliebte Multiplayer-Videospiel Dota 2 zu spielen. Mithilfe neuronaler Netze verarbeiteten diese Agenten große Mengen an Informationen aus der Spielumgebung, um schnelle, strategische Entscheidungen zu treffen. Durch kontinuierliches Feedback lernten und verbesserten sich die Agenten im Laufe der Zeit und erreichten schließlich ein Fähigkeitsniveau, das hoch genug war, um einige der besten Spieler des Spiels zu schlagen. 

__wf_reserved_inherit
Abb. 4. Menschliche vs. KI Interpretation der Dota-Matrix.

Verstehen der Grundlagen des Transferlernens

Transferlernen unterscheidet sich von anderen Arten des Lernens. Anstatt ein Modell von Grund auf zu trainieren, wird ein bereits trainiertes Modell auf einem großen Datensatz verwendet und für eine neue, aber verwandte Aufgabe feinabgestimmt. Das beim ursprünglichen Training gewonnene Wissen wird verwendet, um die Leistung der neuen Aufgabe zu verbessern. Transfer-Lernen verkürzt die Zeit, die für das Training einer neuen Aufgabe benötigt wird, je nach deren Komplexität. Es funktioniert, indem die ersten Schichten des Modells, die die allgemeinen Merkmale erfassen, beibehalten und die letzten Schichten durch die der neuen spezifischen Aufgabe ersetzt werden. 

Die Übertragung des künstlerischen Stils ist eine interessante Anwendung des Transfer-Lernens in der Computer Vision. Diese Technik ermöglicht es einem Modell, ein Bild so zu transformieren, dass es dem Stil verschiedener Kunstwerke entspricht. Zu diesem Zweck wird ein neuronales Netz zunächst auf einem großen Datensatz von Bildern trainiert, die mit ihren künstlerischen Stilen gepaart sind. Durch diesen Prozess lernt das Modell, allgemeine Bildmerkmale und Stilmuster zu erkennen.

Sobald das Modell trainiert ist, kann es feinabgestimmt werden, um den Stil eines bestimmten Gemäldes auf ein neues Bild anzuwenden. Das Netzwerk passt sich an das neue Bild an und behält dabei die gelernten Stilmerkmale bei, so dass ein einzigartiges Ergebnis entsteht, das den ursprünglichen Inhalt mit dem ausgewählten künstlerischen Stil kombiniert. So können Sie beispielsweise ein Foto einer Bergkette aufnehmen und den Stil von Edvard Munchs Der Schrei anwenden. Das Ergebnis ist ein Bild, das die Szene einfängt, aber den kühnen, ausdrucksstarken Stil des Gemäldes aufweist.

__wf_reserved_inherit
Abb. 5. Ein Beispiel für die Übertragung eines künstlerischen Stils durch Transferlernen.

Ein Blick auf die Unterschiede zwischen verschiedenen Arten des maschinellen Lernens

Nachdem wir uns nun mit den wichtigsten Arten des maschinellen Lernens befasst haben, wollen wir uns die einzelnen Arten genauer ansehen, damit Sie die beste Lösung für verschiedene Anwendungen finden.

  • Überwachtes Lernen: Diese Art von Lernen ist sehr genau, wenn sie mit markierten Daten arbeitet, erfordert jedoch eine große Datenmenge und kann empfindlich auf Rauschen reagieren.
  • Unüberwachtes Lernen: Nützlich für die Erkundung unmarkierter Daten, um verborgene Muster zu finden, obwohl die Ergebnisse weniger präzise und schwieriger zu interpretieren sein können.
  • Verstärkungslernen: Es trainiert Agenten, schrittweise Entscheidungen in komplexen Umgebungen zu treffen, erfordert aber oft eine erhebliche Rechenleistung.
  • Transfer-Lernen: Bei diesem Ansatz werden vorab trainierte Modelle verwendet, um das Training zu beschleunigen und die Leistung bei neuen Aufgaben zu verbessern, insbesondere wenn die Datenmenge begrenzt ist.
__wf_reserved_inherit
Abb. 6. Ein Vergleich aller Arten des maschinellen Lernens. Bild vom Autor.

Die Wahl der richtigen Art des maschinellen Lernens hängt von mehreren Faktoren ab. Überwachtes Lernen eignet sich gut, wenn Sie über reichlich markierte Daten und eine klare Aufgabe verfügen. Unüberwachtes Lernen ist nützlich für die Datenexploration oder wenn es nur wenige markierte Beispiele gibt. Verstärkungslernen ist ideal für komplexe Aufgaben, die eine schrittweise Entscheidungsfindung erfordern, während Transfer-Lernen gut geeignet ist, wenn nur wenige Daten vorliegen oder die Ressourcen begrenzt sind. Unter Berücksichtigung dieser Faktoren können Sie den am besten geeigneten Ansatz für Ihr Bildverarbeitungsprojekt auswählen.

Einpacken

Mit Techniken des maschinellen Lernens kann eine Vielzahl von Herausforderungen bewältigt werden, insbesondere in Bereichen wie der Computer Vision. Wenn Sie die verschiedenen Arten - überwachtes, unüberwachtes, verstärkendes und übertragendes Lernen - verstehen, können Sie den besten Ansatz für Ihre Bedürfnisse wählen.

 Überwachtes Lernen eignet sich hervorragend für Aufgaben, die eine hohe Genauigkeit und markierte Daten erfordern, während unüberwachtes Lernen ideal ist, um Muster in nicht markierten Daten zu finden. Verstärkungslernen funktioniert gut in komplexen, entscheidungsbasierten Umgebungen, und Transferlernen ist hilfreich, wenn Sie auf vortrainierten Modellen mit begrenzten Daten aufbauen möchten. 

Jede Methode hat ihre eigenen Stärken und Anwendungen, von der Gesichtserkennung über die Robotik bis hin zur Übertragung künstlerischer Stile. Die Wahl des richtigen Typs kann neue Möglichkeiten in Branchen wie dem Gesundheitswesen, der Automobilindustrie und der Unterhaltung eröffnen.

Um mehr zu erfahren, besuchen Sie unser GitHub-Repository und beteiligen Sie sich an unserer Community. Entdecken Sie KI-Anwendungen für selbstfahrende Autos und die Landwirtschaft auf unseren Lösungsseiten. 🚀

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert