Ultralytics : Intelligentes Datenmanagement

Möchten Sie ein Computer-Vision-Projekt umsetzen?

Vision-KI, auch bekannt als Computer Vision, hat seit ihren Anfängen einen langen Weg zurückgelegt und sich von experimenteller Forschung zu einer Schlüsseltechnologie entwickelt, die reale Anwendungen ermöglicht. Heute können KI-Begeisterte mithilfe leicht zugänglicher Tools und Frameworks leistungsstarke Modelle für Aufgaben wie Objekterkennung und Instanzsegmentierung erstellen.

Doch während diese Anwendungen den Schritt vom Versuchsstadium in die Produktion vollziehen, bleibt das Datenmanagement eine entscheidende und oft übersehene Herausforderung. Da Datensätze für Computer Vision immer umfangreicher und komplexer werden, haben Teams häufig Schwierigkeiten, konsistente Annotationen zu gewährleisten, track zwischen verschiedenen Versionen track und die allgemeine Datenqualität sicherzustellen.

Selbst modernste Modelle können in der Praxis hinter den Erwartungen zurückbleiben, wenn die Daten, mit denen sie trainiert wurden, unvollständig, unausgewogen oder schlecht verwaltet sind. Diese wachsende Kluft zwischen der Leistung in der Entwicklungsphase und der Zuverlässigkeit in der Praxis ist der Grund dafür, dass ein strukturierterer Ansatz für das Datenmanagement erforderlich ist.

Eine weitere häufige Einschränkung besteht darin, dass Datenerfassung, Annotation und Training oft mit unterschiedlichen Tools durchgeführt werden. Ein fragmentierter Arbeitsablauf erschwert die effiziente Verwaltung von Datensätzen, erhöht das Risiko von Inkonsistenzen und verlangsamt den Iterationsprozess.

Um Engpässe im Bereich der Bildverarbeitungs-KI wie die Verwaltung von Datensätzen und fragmentierte Arbeitsabläufe zu beseitigen, haben wir kürzlich Ultralytics eingeführt. Es handelt sich um eine durchgängige Arbeitsumgebung, die die Verwaltung von Datensätzen, Annotation, Training, Bereitstellung und Überwachung in einem einzigen, einheitlichen Arbeitsablauf vereint.

Durch die Verknüpfung aller Phasen des Computer-Vision-Lebenszyklus lassen sich Änderungen track leichter track , die Leistung verschiedener Versionen vergleichen und die Daten kontinuierlich optimieren, um bessere Ergebnisse zu erzielen.

Abb. 1: Beispiel für die Anzeige der Bilder Ihres Datensatzes in Ultralytics (Quelle)

In diesem Artikel erfahren Sie, wie Sie mit Ultralytics Ihre Datensätze track, vergleichen und optimieren können, um zuverlässigere Computer-Vision-Modelle zu erstellen. Los geht’s!

Die Bedeutung des Datenmanagement in der Bildverarbeitung

Die Leistungsfähigkeit eines Modells für Computer Vision hängt eng mit den Daten zusammen, mit denen es trainiert wurde. Die Genauigkeit des Modells – also die Häufigkeit, mit der Vorhersagen zutreffen – hängt nicht nur vom Algorithmus ab, sondern auch davon, wie gut der Datensatz die realen Bedingungen widerspiegelt.

Einfach ausgedrückt: Ein Modell lernt Muster direkt aus den Daten, sodass etwaige Lücken, Verzerrungen oder Unstimmigkeiten im Datensatz Einfluss darauf haben können, wie es Vorhersagen trifft. Mit anderen Worten: Daten von schlechter Qualität, fehlerhafte Annotationen oder eine unzureichende Abdeckung realer Variationen in Bildern – wie beispielsweise unterschiedliche Lichtverhältnisse, Objektwinkel, Hintergründe oder den Grad der Verdeckung – können die Genauigkeit erheblich beeinträchtigen, selbst wenn die Modellarchitektur an sich robust ist.

Dies gilt auch für die Feinabstimmung eines Modells, bei der ein vortrainiertes Modell anhand neuer oder aktualisierter Daten weiter trainiert wird, um es besser an einen bestimmten Anwendungsfall oder eine bestimmte Umgebung anzupassen. Da die Genauigkeit des Modells so stark von den Daten abhängt, ist eine ordnungsgemäße Verwaltung dieser Daten von entscheidender Bedeutung.

Zur Verwaltung von Datensätzen gehören das Organisieren, Beschriften und die kontinuierliche Aktualisierung der Daten, damit diese korrekt und relevant bleiben. Dies erleichtert es, die Leistung im Laufe der Zeit zu verbessern, insbesondere beim erneuten Trainieren oder Feinabstimmen von Modellen anhand neuer Daten.

Wie sich die Qualität von Datensätzen auf die Zuverlässigkeit in der Praxis auswirkt

Anwendungsfälle im Bereich Computer Vision, wie beispielsweise Sicherheitsüberwachungssysteme, sind ein gutes Beispiel dafür, warum ein ordnungsgemäßes Datenmanagement von entscheidender Bedeutung ist. Diese Systeme müssen unter einer Vielzahl von realen Bedingungen zuverlässig funktionieren, darunter unterschiedliche Lichtverhältnisse, Kamerawinkel, unterschiedliche Menschenmengen und teilweise Sichtbehinderungen.

Wenn die Trainingsdaten diese Variationen nicht abdecken oder es an Vielfalt hinsichtlich der Darstellung von Objekten in verschiedenen Szenen und unter unterschiedlichen Bedingungen mangelt, kann es dem Modell schwerfallen, detect genau zu detect . So kann beispielsweise ein Modell, das hauptsächlich anhand gut beleuchteter, übersichtlicher Szenen trainiert wurde, in Umgebungen mit schlechten Lichtverhältnissen oder in überfüllten Situationen schlechte Ergebnisse liefern. In Sicherheitssystemen kann dies dazu führen, dass Ereignisse übersehen werden oder Fehlalarme ausgelöst werden.

Um dies zu vermeiden, ist es wichtig, Datensätze zu pflegen, die nicht nur sauber und korrekt beschriftet, sondern auch ausgewogen und stets auf dem neuesten Stand sind. Das bedeutet, Lücken in den Daten zu identifizieren, neue Beispiele hinzuzufügen, wenn sich die Bedingungen ändern, und sicherzustellen, dass verschiedene Klassen und Umgebungen gleichmäßig vertreten sind.

Mit einem umfassenderen und besser strukturierten Datensatz sind Modelle besser in der Lage, die Variabilität in der Praxis zu bewältigen und zuverlässigere Vorhersagen zu liefern.

Wichtige Aspekte der Datenverwaltung

Wie sieht das Datenmanagement also konkret aus? Es umfasst das Organisieren, Kennzeichnen und Pflegen von Daten, damit diese während des gesamten Modellentwicklungsprozesses effektiv genutzt werden können.

Zur Datenaufbereitung gehört beispielsweise die Strukturierung des Datensatzes und dessen Aufteilung in Trainings-, Validierungs- und Testdatensätze. Der Trainingsdatensatz dient dazu, das Modell zu trainieren, der Validierungsdatensatz dient zur Überwachung der Leistung und als Grundlage für Anpassungen während der Entwicklung, und der Testdatensatz dient dazu, zu bewerten, wie gut das fertige Modell bei völlig unbekannten Daten abschneidet.

Das Labeling hingegen umfasst die Annotation von Bildern mit Details wie Klassenbezeichnungen, Begrenzungsrahmen oder Segmentierungsmasken. Da das Modell anhand dieser Annotationen lernt, sind Genauigkeit und Konsistenz entscheidend, damit es aussagekräftige Muster erkennen und zuverlässige Vorhersagen treffen kann.

Darüber hinaus umfasst die Pflege des Datensatzes die regelmäßige Überprüfung und Aktualisierung der Daten. Dazu gehören unter anderem die Korrektur von Annotationsfehlern, das Entfernen von Daten minderer Qualität oder von Duplikaten sowie das Hinzufügen neuer Beispiele, um fehlende Fälle oder veränderte Bedingungen abzudecken.

Allgemeiner betrachtet ist die Verwaltung von Datensätzen ein fortlaufender Prozess. Wenn Modelle evaluiert und neue Daten erfasst werden, müssen die Datensätze aktualisiert werden, um reale Bedingungen und Randfälle widerzuspiegeln. Die Nachverfolgung dieser Aktualisierungen und der Vergleich verschiedener Versionen helfen den Teams zu verstehen, was die Leistung verbessert und wo weitere Änderungen erforderlich sind.

Verwaltung von Datensätzen mit Ultralytics

Ultralytics bietet einen strukturierten Arbeitsablauf für die Verwaltung von Datensätzen in einer einzigen Umgebung, der alle Schritte von der Datenaufbereitung bis zum Export abdeckt. Sie wurde entwickelt, um sowohl einzelne Entwickler als auch Teams zu unterstützen, und erleichtert die einheitliche Verwaltung von Datensätzen – ganz gleich, ob Sie eigenständig arbeiten oder projektübergreifend zusammenarbeiten.

Jede Phase ist darauf ausgelegt, die Organisation, Verarbeitung und Nutzung von Datensätzen während des gesamten Modellentwicklungszyklus zu vereinfachen. Durch die Bündelung dieser Schritte an einem Ort verringert die Plattform die Fragmentierung und erleichtert es, die Konsistenz über alle Arbeitsabläufe hinweg zu gewährleisten.

Lassen Sie uns nun die wichtigsten Schritte durchgehen und erläutern, wie die Plattform jeden einzelnen davon unterstützt.

Hochladen von Datensätzen auf Ultralytics

Der Einstieg in die Arbeit mit Datensätzen auf der Plattform ist flexibel, da es zahlreiche Möglichkeiten gibt, Daten einzubinden oder wiederzuverwenden. Sie können Ihre eigenen Daten hochladen oder schneller loslegen, indem Sie öffentliche Datensätze nutzen, die über die Plattform verfügbar sind. Sie können auch bestehende Datensätze klonen, die von der Community geteilt wurden, und darauf aufbauen.

Dank der Community-Funktionen der Plattform lassen sich vorhandene Arbeiten leicht entdecken und wiederverwenden. Durch den Zugriff auf Datensätze anderer Nutzer, darunter Millionen von Bildern und Anmerkungen, können Sie schnell loslegen, ohne alles selbst sammeln und kennzeichnen zu müssen. Durch das Klonen eines Datensatzes wird eine Kopie in Ihrem Arbeitsbereich erstellt, die Sie ändern und erweitern können, während das Original erhalten bleibt.

Beim Hochladen unterstützt die Plattform einzelne Bilder, Videos und Datensatzarchive wie ZIP-, TAR- oder GZ-Dateien. Außerdem werden gängige Datensatzformate wie YOLO COCO unterstützt, sodass vorhandene Datensätze und Annotationen ohne zusätzliche Konvertierung einfach importiert werden können. Darüber hinaus können Sie einen Datensatz mithilfe einer von der Plattform exportierten NDJSON-Datei hochladen, wodurch sich Datensätze projektübergreifend nahtlos neu erstellen oder wiederverwenden lassen.

Sobald die Daten hochgeladen sind, verarbeitet die Plattform sie über eine strukturierte Pipeline. Dazu gehören die Überprüfung von Dateiformaten und -größen, die Anpassung der Bildgröße bei Bedarf, die Auswertung von Anmerkungen sowie die Erstellung von Datensatzstatistiken.

So werden beispielsweise Videos in Einzelbilder umgewandelt, damit sie für Trainingszwecke genutzt werden können, während Bilder optimiert und für eine einfachere Durchsicht und Analyse aufbereitet werden. Nach der Verarbeitung stehen die Datensätze bereit, um innerhalb der Plattform für Annotationen, Analysen und das Modelltraining verwendet zu werden.

Datenannotation auf Ultralytics

Nach dem Hochladen können die Datensätze direkt auf der Plattform überprüft und mit Anmerkungen versehen werden. Die Plattform verfügt über integrierte Werkzeuge zur Bildannotation für eine Vielzahl von Aufgaben im Bereich der Bildverarbeitung, darunter Objekterkennung, Instanzsegmentierung, Posenabschätzung, Erkennung orientierter Begrenzungsrahmen (OBB) und Bildklassifizierung.

Abb. 2: Einsatz Ultralytics für die Datenkennzeichnung (Quelle)

Annotationen können mit diesen Tools manuell erstellt oder mithilfe von KI-gestützten Funktionen wie der SAM intelligenten Annotation beschleunigt werden. Mit SAM können Sie durch Interaktion mit dem Bild Masken, Begrenzungsrahmen oder ausgerichtete Rahmen generieren, was dazu beiträgt, den Beschriftungsprozess zu beschleunigen und gleichzeitig die Genauigkeit zu gewährleisten.

Analyse der Datenqualität mithilfe Ultralytics

Neben der Aufbereitung und Annotation von Daten ist es für die Entwicklung zuverlässiger Computer-Vision-Modelle unerlässlich, die Qualität des Datensatzes zu verstehen. Ohne einen klaren Überblick über Faktoren wie Klassenverteilung, Annotationsqualität, Aufteilung des Datensatzes und die Darstellung der Daten unter verschiedenen Bedingungen kann es schwierig sein, Probleme zu erkennen, die sich auf die Modellleistung auswirken.

Ultralytics verfügt über integrierte Funktionen, die eine effektivere Analyse von Datensätzen ermöglichen. Diese Erkenntnisse sind direkt in der Datensatz-Oberfläche verfügbar, und zwar in verschiedenen Registerkarten wie „Bilder“, „Klassen“ und „Diagramme“.

Auf der Registerkarte „Diagramme“ können Sie Statistiken auf Datensatzebene einsehen, wie beispielsweise die Aufteilung (Training, Validierung und Test), die Klassenhäufigkeit sowie Annotations-Heatmaps, die zeigen, wo Objekte in den Bildern vorkommen.

Die Registerkarte „Klassen“ bietet eine Aufschlüsselung der Annotationsanzahl nach Klassen, wodurch sich Ungleichgewichte zwischen den Klassen leichter erkennen lassen. Die Registerkarte „Bilder“ zeigt hingegen Details auf Bildebene an, wie beispielsweise Abmessungen, Annotationsanzahl und die Verteilung der Labels auf die einzelnen Bilder.

Diese Erkenntnisse erleichtern es, Probleme wie ein Ungleichgewicht zwischen den Klassen, fehlende Szenarien oder eine ungleichmäßige Datenverteilung zu erkennen. So könnte man beispielsweise feststellen, dass bestimmte Klassen nur sehr wenige Beispiele enthalten oder dass sich die meisten Annotationen auf bestimmte Bereiche eines Bildes konzentrieren.

Über die Datenanalyse hinaus unterstützt die Plattform die Kuratierung und Erweiterung von Datensätzen, d. h. die Verfeinerung von Datensätzen durch die Korrektur oder Entfernung problematischer Daten sowie die Erstellung von Varianten bestehender Daten zur Verbesserung der Modellleistung. Diese Verbesserungen können direkt innerhalb der Plattform vorgenommen werden, indem Anmerkungen aktualisiert, neue Daten hinzugefügt oder die Aufteilung der Datensätze auf der Grundlage der aus der Analyse gewonnenen Erkenntnisse neu organisiert werden.

Datensätze aus Ultralytics exportieren

Sobald ein Datensatz vorbereitet und validiert wurde, kann er zur Verwendung in verschiedenen Umgebungen exportiert werden. Dies gibt Ihnen die Flexibilität, Ihre Computer-Vision-Daten dort einzusetzen, wo Sie es wünschen – sei es zum Trainieren von Modellen lokal, in der Cloud oder in anderen Tools und Arbeitsabläufen.

Die Ultralytics unterstützt mehrere Exportformate, darunter YOLO, COCO und NDJSON, wodurch sich Datensätze problemlos in verschiedene Trainingsabläufe und -tools integrieren lassen.

Abb. 3: Exportieren eines Datensatzes aus Ultralytics (Quelle)

Durch den Export eines Datensatzes wird eine feste Momentaufnahme der Daten zu einem bestimmten Zeitpunkt erstellt, einschließlich der Bilder, Anmerkungen und der Struktur. Dies ist nützlich, da sich Datensätze häufig ändern, wenn neue Daten hinzugefügt, Anmerkungen aktualisiert oder Aufteilungen angepasst werden. Durch den Export einer Momentaufnahme können Sie genau die Version des Datensatzes beibehalten, die für einen bestimmten Trainingsdurchlauf verwendet wurde.

Dadurch lassen sich Ergebnisse später leichter reproduzieren, da Sie ein Modell erneut auf derselben Datenstruktur trainieren und die Leistung verschiedener Datensatzversionen miteinander vergleichen können. So können Sie beispielsweise beurteilen, ob das Hinzufügen neuer Bilder oder das Korrigieren von Annotationen tatsächlich die Modellgenauigkeit verbessert, anstatt nur zu vermuten, was sich geändert hat.

Der Export erfolgt asynchron; sobald die Datensätze bereitstehen, können sie heruntergeladen und in lokalen, Cloud- oder Offline-Trainingsumgebungen verwendet werden.

Verbesserung der Datenqualität durch iterative Optimierungen auf Ultralytics

Bei Workflows im Bereich des maschinellen Lernens und des Deep Learning wird die Verwaltung der Datensätze auch nach der Bereitstellung fortgesetzt, da sich reale Daten oft von den während des Trainings verwendeten Daten unterscheiden.

Wenn Modelle mit neuen Eingaben konfrontiert werden, treten Lücken im Datensatz – wie fehlende Bedingungen (z. B. Umgebungen mit schlechten Lichtverhältnissen), unterschiedliche Kamerawinkel, Verdeckungen oder überfüllte Szenen – sowie Annotationsfehler deutlicher zutage, sodass die Daten im Laufe der Zeit verfeinert werden müssen.

Es gibt verschiedene Möglichkeiten, einen Datensatz zu verbessern. Sie können neue Bilder oder Videos hinzufügen, um fehlende Bedingungen abzudecken, wie beispielsweise Umgebungen mit schlechten Lichtverhältnissen, unterschiedliche Kamerawinkel, Verdeckungen oder Szenen mit vielen Personen, und so dazu beitragen, Lücken in den Daten zu schließen.

Gleichzeitig trägt die Gewährleistung korrekter und einheitlicher Annotationen – wie beispielsweise korrekt beschriftete Objekte und präzise Begrenzungsrahmen oder Masken – dazu bei, dass das Modell zuverlässigere Muster erlernt.

Dies folgt in der Regel einem einfachen Kreislauf: das Modell trainieren, die Ergebnisse auswerten, Fehler identifizieren, den Datensatz verbessern und erneut trainieren. Jeder Schritt trägt dazu bei, Probleme wie falsche Annotationen, fehlende Daten oder unterrepräsentierte Fälle aufzudecken.

Nehmen wir einmal an, Sie arbeiten an einem Echtzeit-System zur Überwachung von Verkaufsregalen, mit dem detect in Geschäften detect . In frühen Versionen des Datensatzes sind möglicherweise bestimmte Produkttypen, Lichtverhältnisse oder überfüllte Regalbestückungen nicht berücksichtigt. Bei der Bewertung stellen Sie möglicherweise fest, dass das Modell in solchen Situationen Schwierigkeiten hat, detect zu detect .

Um die Leistung zu verbessern, können Sie neue Bilder sammeln, die diese fehlenden Szenarien abdecken, und die Annotationen bei Bedarf aktualisieren. Wenn Sie diesen Vorgang im Laufe der Zeit wiederholen, wird das Modell unter realen Bedingungen genauer und zuverlässiger.

Ultralytics unterstützt diesen Arbeitsablauf, indem sie Aktualisierungen der Datensätze mit dem Training und der Bewertung verknüpft. Dank integrierter Funktionen zur Experimentverfolgung und Leistungsmetriken lassen sich Fortschritte leichter überwachen und die Datensätze im Laufe der Zeit kontinuierlich verbessern.

Verfolgung von Änderungen an Datensätzen mithilfe Ultralytics

Im Rahmen des Modellentwicklungsprozesses haben wir kurz erörtert, wie sich Datensätze im Laufe der Zeit weiterentwickeln. Wenn neue Daten hinzugefügt, Annotationen verfeinert und Klassen aktualisiert werden, ist es für die Aufrechterhaltung der Datenqualität und die Gewährleistung einer konsistenten Modellleistung von entscheidender Bedeutung, diese Änderungen track behalten.

Hier sind einige der wichtigsten Funktionen der Ultralytics , die die Nachverfolgung von Datensätzen und die Versionskontrolle unterstützen:

Versionsverwaltung für Datensätze: Sie können feste Datensatzversionen als NDJSON-Snapshots erstellen. Jede Version erfasst wichtige Details wie die Anzahl der Bilder, die Anzahl der Klassen, die Anzahl der Annotationen und die Größe des Datensatzes zu einem bestimmten Zeitpunkt. Diese Versionen werden gespeichert und können später heruntergeladen werden, was die Reproduktion von Experimenten und den Vergleich von Ergebnissen zwischen verschiedenen Zuständen des Datensatzes erleichtert.
Registerkarte „Versionen“: Alle Versionen des Datensatzes sind auf der Registerkarte „Versionen“ zusammengefasst. Dort können Sie den Versionsverlauf einsehen, Änderungen mit Beschreibungen versehen und track sich der Datensatz im Laufe der Zeit entwickelt.
Verknüpfung mit Modellen: Auf der Registerkarte „Modelle“ werden alle Modelle angezeigt, die anhand eines Datensatzes trainiert wurden, einschließlich Kennzahlen wie mAP Trainingsdetails. Die Datensatzversionen sind mit den Trainingsläufen verknüpft, sodass Sie besser nachvollziehen können, wie sich Änderungen an den Daten auf die Modellleistung auswirken.
Registerkarte „Fehler“: Auf der Registerkarte „Fehler“ werden Dateien angezeigt, bei deren Verarbeitung Fehler aufgetreten sind, zusammen mit Fehlerdetails und Vorschlägen. So können Sie Probleme wie beschädigte Dateien oder nicht unterstützte Formate vor dem Training erkennen und beheben.
Datensatz-Oberfläche (Registerkarten „Bilder“ und „Klassen“): In diesen Ansichten können Sie Bilder durchsuchen, Annotationen überprüfen, Klassenbezeichnungen verwalten und die Klassenverteilung analysieren. Funktionen wie Filtern, Sortieren und das Erkennen nicht annotierter Bilder erleichtern die Überwachung der Datensatzqualität im Zeitverlauf.
Statistiken und Diagramme: Integrierte Datenvisualisierungen wie Splittverteilungen, Klassenhäufigkeiten und Anmerkungs-Heatmaps helfen dabei, track in der Datenverteilung track und Ungleichgewichte zu erkennen, während sich der Datensatz weiterentwickelt.

Abb. 4: Ein Blick auf die Analyse der Klassenverteilung eines Datensatzes auf Ultralytics (Quelle)

Verknüpfung von Datensätzen mit dem Training und der Bereitstellung innerhalb der Ultralytics

Ultralytics verbindet die verschiedenen Phasen der Entwicklung von KI-Modellen zu einer einzigen Pipeline. Dies optimiert den Prozess von den Rohdaten bis hin zu produktionsreifen Bildverarbeitungs-KI-Anwendungen.

Sobald die Datensätze vorbereitet und annotiert sind, können sie direkt innerhalb der Plattform zum Trainieren von Computer-Vision-Modellen wie Ultralytics verwendet werden. Während des Trainings können Sie mithilfe integrierter Dashboards Leistungskennzahlen überwachen, track und beurteilen, wie gut das Modell lernt.

Abb. 5: Ein Einblick in die Trainingsmetriken des Sichtungsmodells auf Ultralytics (Quelle)

Nach dem Training können Modelle direkt im Browser mit neuen Bildern getestet werden, um die Vorhersagen zu bewerten und vor der Bereitstellung Verbesserungsmöglichkeiten zu identifizieren. Wenn das Modell gute Ergebnisse liefert, kann es in die Produktion übernommen werden.

Die Plattform unterstützt den Export von Modellen in verschiedene Formate sowie deren Bereitstellung über Inferenzdienste und spezielle Endpunkte, sodass sie in unterschiedlichen Umgebungen ausgeführt werden können.

Nach der Bereitstellung helfen integrierte Überwachungstools dabei, track Systemleistung im Zeitverlauf track , einschließlich Kennzahlen zur Nutzung und zum Modellverhalten. Dies erleichtert die Wartung und Verbesserung von Bildverarbeitungs-KI-Systemen in praktischen Anwendungen.

Bewährte Verfahren für die Verwaltung von Datensätzen mit Ultralytics

Hier sind einige wichtige Punkte, die Sie bei der Verwaltung Ihrer Datensätze über die Ultralytics beachten sollten:

Nutzen Sie Filter, um Lücken zu finden: Identifizieren Sie mithilfe von Filtertools nicht gekennzeichnete oder unterrepräsentierte Daten, um die Vervollständigung von Annotationen zu vereinfachen und die Abdeckung zu verbessern.
Beheben Sie Fehler frühzeitig: Nutzen Sie die Registerkarte „Fehler“ zur Qualitätskontrolle, um fehlgeschlagene Uploads, beschädigte Dateien oder nicht unterstützte Formate vor dem Training zu erkennen.
Aktualisieren Sie die Datensätze kontinuierlich: Fügen Sie neue Daten hinzu, korrigieren Sie Annotationen und berücksichtigen Sie Randfälle, sobald diese auftreten. Dies trägt dazu bei, die Abdeckung zu verbessern, und stellt sicher, dass die Modelle in realen Szenarien zuverlässig funktionieren.
Gehen Sie bei der Aufteilung des Datensatzes sorgfältig vor: Achten Sie auf ein ausgewogenes Verhältnis zwischen Trainings-, Validierungs- und Testdatensätzen. Sie können die Aufteilung manuell anpassen oder bei Bedarf die automatische Neuverteilung nutzen.

Weitere Informationen zur Ultralytics finden Sie in der offiziellen Ultralytics .

Wesentliche Erkenntnisse

Mit zunehmendem Umfang von Computer-Vision-Projekten wird die effektive Verwaltung von Datensätzen ebenso wichtig wie die Modellentwicklung. Ein strukturierter Ansatz für das Datensatzmanagement trägt dazu bei, die Datenqualität zu verbessern, Arbeitsabläufe zu optimieren und langfristig eine bessere Modellleistung zu erzielen.

Ultralytics vereinfacht diesen Prozess, indem sie die Verwaltung von Datensätzen, das Training und die Bereitstellung in einem einzigen Arbeitsablauf vereint. Durch einen strukturierten Ansatz bei der Verwaltung von Datensätzen können Teams die Komplexität reduzieren, die Effizienz steigern und skalierbarere sowie zuverlässigere Computer-Vision-Systeme entwickeln.

Werden Sie Teil unserer wachsenden Community und entdecken Sie unser GitHub-Repository mit Ressourcen zum Thema KI. Wenn Sie noch heute mit Bildverarbeitungs-KI arbeiten möchten, informieren Sie sich über unsere Lizenzoptionen. Erfahren Sie auf unseren Lösungsseiten, wie KI in der Landwirtschaft die Landwirtschaft verändert und wie Bildverarbeitungs-KI im Gesundheitswesen die Zukunft gestaltet.

Intelligentes Datenmanagement in der Bildverarbeitung mit Ultralytics