Vision-KI

Arten von KI-Lerntechniken, die in der Computer Vision verwendet werden

Erkunde die verschiedenen Arten von Machine Learning und Deep Learning-Techniken, die in Computer-Vision-Anwendungen verwendet werden, von überwachtem Lernen bis hin zu Transfer Learning.

ABAbirami Vina

4 min readNovember 6, 2024

Arten von KI-Lerntechniken, die in der Computer Vision verwendet werden

Machine Learning ist eine Form der künstlichen Intelligenz (KI), die Computern hilft, aus Daten zu lernen, sodass sie eigenständig Entscheidungen treffen können, ohne dass für jede Aufgabe eine detaillierte Programmierung erforderlich ist. Es umfasst die Erstellung von algorithmischen Modellen, die Muster in Daten erkennen können. Durch das Identifizieren von Mustern in Daten und das Lernen daraus können diese Algorithmen ihre Leistung mit der Zeit schrittweise verbessern.

Ein Bereich, in dem Machine Learning eine entscheidende Rolle spielt, ist Computer Vision, ein Teilgebiet der KI, das sich auf visuelle Daten konzentriert. Computer Vision nutzt Machine Learning, um Computern dabei zu helfen, Muster in Bildern und Videos zu erkennen und zu verstehen. Angetrieben durch Fortschritte im Machine Learning wird der globale Marktwert von Computer Vision bis 2032 auf etwa 175,72 Milliarden USD geschätzt.

In diesem Artikel betrachten wir die verschiedenen Arten des Machine Learnings, die in der Computer Vision verwendet werden, einschließlich überwachtem (supervised), unüberwachtem (unsupervised), verstärkendem (reinforcement) und Transfer-Learning, und wie jede davon in verschiedenen Anwendungen eine Rolle spielt. Fangen wir an!

Link to this sectionÜbersicht über Machine Learning in der Computer Vision#

Computer Vision basiert auf Machine Learning, insbesondere auf Techniken wie Deep Learning und neuronalen Netzen, um visuelle Informationen zu interpretieren und zu analysieren. Diese Methoden ermöglichen es Computern, Computer Vision-Aufgaben durchzuführen, wie zum Beispiel Objekte in Bildern zu erkennen, Bilder nach Kategorien zu klassifizieren und Gesichter zu erkennen. Machine Learning ist auch für Echtzeit-Computer Vision-Anwendungen unerlässlich, wie etwa bei der Qualitätskontrolle in der Fertigung und der medizinischen Bildgebung im Gesundheitswesen. In diesen Fällen helfen neuronale Netze Computern dabei, komplexe visuelle Daten zu interpretieren, beispielsweise bei der Analyse von Gehirnscans, um Tumore zu erkennen.

Tatsächlich basieren viele fortschrittliche Computer Vision-Modelle, wie Ultralytics YOLO11, auf neuronalen Netzen.

Segmentierung von Gehirn-Scans mit Ultralytics YOLO11

Abb. 1. Segmentierung von Gehirnscans mit Ultralytics YOLO11.

Es gibt verschiedene Lernmethoden im Machine Learning, wie überwachtes Lernen, unüberwachtes Lernen, Transfer-Learning und verstärkendes Lernen, die die Grenzen dessen, was in der Computer Vision möglich ist, verschieben. In den folgenden Abschnitten erkunden wir jede dieser Arten, um zu verstehen, wie sie zur Computer Vision beitragen.

Link to this sectionErkundung des überwachten Lernens (Supervised Learning)#

Supervised learning is the most commonly used type of machine learning. In supervised learning, models are trained using labeled data. Each input is tagged with the correct output, which helps the model learn. Similar to a student learning from a teacher, this labeled data acts as a guide or supervisor.

Während des Trainings erhält das Modell sowohl Eingangsdaten (die Informationen, die es verarbeiten muss) als auch Ausgangsdaten (die korrekten Antworten). Dieser Aufbau hilft dem Modell, die Verbindung zwischen Eingängen und Ausgängen zu lernen. Das Hauptziel des überwachten Lernens ist es, dass das Modell eine Regel oder ein Muster entdeckt, das jeden Eingang präzise mit seinem korrekten Ausgang verknüpft. Mit dieser Abbildung kann das Modell genaue Vorhersagen treffen, wenn es auf neue Daten stößt. Beispielsweise basiert die Gesichtserkennung in der Computer Vision auf überwachtem Lernen, um Gesichter basierend auf diesen gelernten Mustern zu identifizieren.

Eine häufige Anwendung hierfür ist das Entsperren deines Smartphones per Gesichtserkennung. Das Modell wird auf beschrifteten Bildern deines Gesichts trainiert, sodass es beim Entsperren deines Handys das Live-Bild mit dem vergleicht, was es gelernt hat. Wenn es eine Übereinstimmung erkennt, entsperrt sich dein Handy.

Gesichtserkennung zum Entsperren deines Smartphones

Abb. 2. Gesichtserkennung kann verwendet werden, um dein Smartphone zu entsperren.

Link to this sectionWie funktioniert unüberwachtes Lernen (Unsupervised Learning) in der KI?#

Unüberwachtes Lernen ist eine Art des Machine Learnings, das unbeschriftete Daten verwendet – das Modell erhält während des Trainings keine Anleitung oder korrekten Antworten. Stattdessen lernt es, Muster und Erkenntnisse eigenständig zu entdecken.

Unüberwachtes Lernen identifiziert Muster mithilfe von drei Hauptmethoden:

Clustering: Fasst ähnliche Datenpunkte zusammen. Dies ist nützlich für Aufgaben wie die Kundensegmentierung, bei der ähnliche Kunden basierend auf ihrem Verhalten oder ihren Attributen gruppiert werden können.
Assoziation: Wird verwendet, um Beziehungen zwischen Elementen zu identifizieren und Verbindungen innerhalb der Daten aufzudecken (zum Beispiel das Finden von Produkten, die häufig zusammen gekauft werden, bei der Warenkorbanalyse).
Dimensionsreduktion: Vereinfacht Datensätze durch Entfernen redundanter Merkmale, was bei der Visualisierung und Verarbeitung hilft.

Eine Schlüsselanwendung des unüberwachten Lernens ist die Bildkomprimierung, bei der Techniken wie k-Means-Clustering die Bildgröße reduzieren, ohne die visuelle Qualität zu beeinträchtigen. Pixel werden in Cluster gruppiert und jedes Cluster durch eine Durchschnittsfarbe repräsentiert, was zu einem Bild mit weniger Farben und einer kleineren Dateigröße führt.

Ein Beispiel für unüberwachte Bildkompression

Abb. 3. Ein Beispiel für unüberwachte Bildkomprimierung.

Unüberwachtes Lernen stößt jedoch auf gewisse Grenzen. Ohne vordefinierte Antworten kann es bei der Genauigkeit und der Leistungsbewertung Evaluierung Schwierigkeiten geben. Es erfordert oft manuellen Aufwand, um Ergebnisse zu interpretieren und Gruppen zu beschriften, und es reagiert empfindlich auf Probleme wie fehlende Werte und Rauschen, was die Qualität der Ergebnisse beeinträchtigen kann.

Link to this sectionVerstärkendes Lernen (Reinforcement Learning) erklärt#

Im Gegensatz zum überwachten und unüberwachten Lernen basiert verstärkendes Lernen nicht auf Trainingsdaten. Stattdessen nutzt es Agenten in neuronalen Netzen, die mit einer Umgebung interagieren, um ein bestimmtes Ziel zu erreichen.

Der Prozess umfasst drei Hauptkomponenten:

Agent: Der Lernende oder Entscheidungsträger.
Umgebung: Alles, womit der Agent interagiert; dies kann real oder virtuell sein.
Belohnungssignal: Ein numerischer Wert, der nach jeder Aktion gegeben wird und den Agenten zum Ziel führt.

Wenn der Agent Aktionen ausführt, beeinflusst dies die Umgebung, die daraufhin mit Feedback reagiert. Das Feedback hilft dem Agenten, seine Entscheidungen zu bewerten und sein Verhalten anzupassen. Das Belohnungssignal hilft dem Agenten zu verstehen, welche Aktionen ihn dem Ziel näher bringen.

Verstärkendes Lernen ist der Schlüssel für Anwendungsfälle wie autonomes Fahren und Robotik. Beim autonomen Fahren lernen Aufgaben wie Fahrzeugsteuerung, Objekterkennung und Hindernisvermeidung basierend auf Feedback. Modelle werden mithilfe von Agenten in neuronalen Netzen trainiert, um Fußgänger oder andere Objekte zu erkennen und angemessene Maßnahmen zur Kollisionsvermeidung zu ergreifen. Ähnlich ermöglicht verstärkendes Lernen in der Robotik Aufgaben wie Objektmanipulation und Bewegungssteuerung.

Ein großartiges Beispiel für verstärkendes Lernen in der Praxis ist ein Projekt von OpenAI, bei dem Forscher KI-Agenten darauf trainierten, das populäre Multiplayer-Videospiel, Dota 2, zu spielen. Mithilfe neuronaler Netze verarbeiteten diese Agenten enorme Mengen an Informationen aus der Spielumgebung, um schnelle, strategische Entscheidungen zu treffen. Durch kontinuierliches Feedback lernten die Agenten und verbesserten sich mit der Zeit, bis sie schließlich ein Fähigkeitsniveau erreichten, das hoch genug war, um einige der besten Spieler des Spiels zu schlagen.

Menschliche vs. KI-Interpretation der Dota Matrix

Abb. 4. Menschliche vs. KI-Interpretation der Dota-Matrix.

Link to this sectionDie Grundlagen des Transfer-Learnings verstehen#

Transfer-Learning unterscheidet sich von anderen Lernarten. Anstatt ein Modell von Grund auf neu zu trainieren, wird ein vortrainiertes Modell auf einem großen Datensatz verwendet und für eine neue, aber verwandte Aufgabe feinabgestimmt (Fine-Tuning). Das während des ursprünglichen Trainings gewonnene Wissen wird genutzt, um die Leistung für die neue Aufgabe zu verbessern. Transfer-Learning verkürzt die für das Training einer neuen Aufgabe benötigte Zeit, abhängig von deren Komplexität. Es funktioniert, indem die anfänglichen Schichten des Modells, die allgemeine Merkmale erfassen, beibehalten und die letzten Schichten durch die für die neue spezifische Aufgabe ersetzt werden.

Künstlerischer Stiltransfer ist eine interessante Anwendung des Transfer-Learnings in der Computer Vision. Diese Technik ermöglicht es einem Modell, ein Bild so umzuwandeln, dass es dem Stil verschiedener Kunstwerke entspricht. Um dies zu erreichen, wird ein neuronales Netz zunächst auf einem großen Datensatz von Bildern trainiert, die mit ihren künstlerischen Stilen gepaart sind. Durch diesen Prozess lernt das Modell, allgemeine Bildmerkmale und Stilmuster zu identifizieren.

Sobald das Modell trainiert ist, kann es feinabgestimmt werden, um den Stil eines bestimmten Gemäldes auf ein neues Bild anzuwenden. Das Netzwerk passt sich an das neue Bild an, während die gelernten Stilmerkmale bewahrt bleiben, was es ermöglicht, ein einzigartiges Ergebnis zu erzielen, das den ursprünglichen Inhalt mit dem gewählten künstlerischen Stil kombiniert. Du könntest zum Beispiel ein Foto einer Bergkette nehmen und den Stil von Edvard Munchs Der Schrei anwenden, was zu einem Bild führt, das die Szene einfängt, aber mit dem kühnen, ausdrucksstarken Stil des Gemäldes.

Ein Beispiel für künstlerische Stilübertragung mittels Transfer Learning

Abb. 5. Ein Beispiel für künstlerischen Stiltransfer mittels Transfer-Learning.

Link to this sectionEin Blick auf die Unterschiede zwischen den Machine Learning-Arten#

Nachdem wir nun die Hauptarten des Machine Learnings behandelt haben, schauen wir uns jede genauer an, damit du besser verstehst, was für verschiedene Anwendungen am besten geeignet ist.

Überwachtes Lernen: Diese Art ist sehr genau, wenn mit beschrifteten Daten gearbeitet wird, erfordert jedoch viele Daten und kann empfindlich auf Rauschen reagieren.
Unüberwachtes Lernen: Es ist nützlich für die Erkundung unbeschrifteter Daten, um verborgene Muster zu finden, obwohl die Ergebnisse weniger präzise und schwerer zu interpretieren sein können.
Verstärkendes Lernen: Es trainiert Agenten, um schrittweise Entscheidungen in komplexen Umgebungen zu treffen, erfordert jedoch oft erhebliche Rechenleistung.
Transfer-Learning: Dieser Ansatz nutzt vortrainierte Modelle, um das Training zu beschleunigen und die Leistung bei neuen Aufgaben zu verbessern, insbesondere wenn die Daten begrenzt sind.

Ein Vergleich aller Arten des maschinellen Lernens

Abb. 6. Ein Vergleich aller Machine Learning-Arten. Bild vom Autor.

Die Wahl der richtigen Machine Learning-Art hängt von mehreren Faktoren ab. Überwachtes Lernen funktioniert gut, wenn du über reichlich beschriftete Daten und eine klare Aufgabe verfügst. Unüberwachtes Lernen ist nützlich für die Datenerkundung oder wenn beschriftete Beispiele selten sind. Verstärkendes Lernen ist ideal für komplexe Aufgaben, die schrittweise Entscheidungsfindung erfordern, während Transfer-Learning großartig ist, wenn Daten begrenzt oder Ressourcen knapp sind. Indem du diese Faktoren berücksichtigst, kannst du den am besten geeigneten Ansatz für dein Computer Vision-Projekt auswählen.

Link to this sectionZusammenfassung#

Machine Learning-Techniken können eine Vielzahl von Herausforderungen bewältigen, insbesondere in Bereichen wie Computer Vision. Indem du die verschiedenen Arten – überwachtes, unüberwachtes, verstärkendes und Transfer-Learning – verstehst, kannst du den besten Ansatz für deine Bedürfnisse wählen.

Überwachtes Lernen ist hervorragend für Aufgaben, die eine hohe Genauigkeit und beschriftete Daten erfordern, während unüberwachtes Lernen ideal ist, um Muster in unbeschrifteten Daten zu finden. Verstärkendes Lernen funktioniert gut in komplexen, entscheidungsbasierten Umgebungen, und Transfer-Learning ist hilfreich, wenn du auf vortrainierten Modellen mit begrenzten Daten aufbauen möchtest.

Jede Methode hat einzigartige Stärken und Anwendungen, von Gesichtserkennung über Robotik bis hin zu künstlerischem Stiltransfer. Die Wahl der richtigen Art kann neue Möglichkeiten in Branchen wie dem Gesundheitswesen, der Automobilindustrie und der Unterhaltungsbranche eröffnen.

Um mehr zu erfahren, besuche unser GitHub-Repository und engagiere dich in unserer Community. Entdecke KI-Anwendungen in selbstfahrenden Autos und der Landwirtschaft auf unseren Lösungsseiten. 🚀

Explore solutions

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Arten von KI-Lerntechniken, die in der Computer Vision verwendet werden

Link to this sectionÜbersicht über Machine Learning in der Computer Vision#

Link to this sectionErkundung des überwachten Lernens (Supervised Learning)#

Link to this sectionWie funktioniert unüberwachtes Lernen (Unsupervised Learning) in der KI?#

Link to this sectionVerstärkendes Lernen (Reinforcement Learning) erklärt#

Link to this sectionDie Grundlagen des Transfer-Learnings verstehen#

Link to this sectionEin Blick auf die Unterschiede zwischen den Machine Learning-Arten#

Link to this sectionZusammenfassung#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!