Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Data Leakage

Erfahre, was Data Leakage im Machine Learning ist und wie du es verhinderst. Entdecke Best Practices, um deine Ultralytics YOLO-Pipeline sicher zu halten.

Ein Datenleck im machine learning (ML) tritt auf, wenn Informationen von außerhalb der training data unangemessen zur Erstellung eines Modells verwendet werden. Dieser versteckte algorithmische Fehler erzeugt während des Trainings und model testing die irreführende Illusion einer außergewöhnlichen Leistung, führt jedoch zu einem gravierenden Versagen bei der Generalisierung, sobald das Modell auf reale, unbekannte Daten trifft. Anders als bei traditionellen Definitionen der Cybersicherheit, bei denen ein Datenleck unauthorized data exposure bezeichnet, konzentriert sich die definition of data leakage in machine learning vollständig auf eine Kontaminierung der Trainingsdaten und eine Beeinträchtigung der prädiktiven Integrität.

Link to this sectionWie es zu Datenlecks kommt#

Um zu verstehen, was ein Datenleck im Machine Learning ist, hilft es, die zwei primären Mechanismen zu betrachten, durch die sich dieser Fehlerpunkt in modernen Pipelines manifestiert:

  • Train-Test Contamination: Dies geschieht, wenn test data versehentlich in den Trainingsdatensatz gelangt. Eine häufige Ursache ist die Durchführung von data preprocessing (wie Normalisierung oder die Berechnung von Mittelwerten) auf dem gesamten Datensatz vor der Aufteilung, anstatt diese Transformationen unabhängig anzuwenden.
  • Target Leakage: Dies tritt auf, wenn prädiktive Merkmale Informationen enthalten, die logischerweise zum Zeitpunkt der Inferenz noch nicht verfügbar wären. Zum Beispiel gibt das Einbeziehen eines Merkmals, das eine direkte Folge der Zielvariablen ist, dem Modell von vornherein den Antwortschlüssel.

Link to this sectionPraxisbeispiele für Datenlecks#

Zu verstehen, wie man Lecks erkennt und verhindert, ist entscheidend für den Aufbau vertrauenswürdiger KI. Hier sind zwei konkrete Beispiele dafür, wie dieses Konzept Produktionseinsätze stört:

  • AI in Healthcare: Wenn eine medizinische Einrichtung einen Algorithmus zur Erkennung von Lungenerkrankungen anhand von Röntgenaufnahmen trainiert, die positiven Scans jedoch alle chirurgische Markierungen enthalten, die von Ärzten nach der Diagnose gesetzt wurden, tritt Target Leakage auf. Das Modell lernt lediglich, die chirurgische Markierung zu identifizieren, anstatt die biologischen Anzeichen der Krankheit.
  • Computer Vision Video Analysis: Bei visuellen Aufgaben wie action recognition führt eine zufällige Aufteilung benachbarter Videoframes auf Trainings- und Validierungssets zu einer massiven Train-Test-Kontaminierung. Da aufeinanderfolgende Frames nahezu identisch sind, lernt das Modell die überlappenden Hintergründe auswendig, anstatt die komplexe menschliche Aktion zu erlernen, was gegen gängige OpenAI model evaluation practices verstößt.

Link to this sectionPrävention und Schutz vor Datenlecks#

Der Schutz vor Datenlecks basiert auf der Aufrechterhaltung einer strengen Datenhygiene und der Nutzung strukturierter Umgebungen während des gesamten Engineering-Lebenszyklus.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model using a strict dataset configuration (data.yaml)
# The YAML file enforces rigid, isolated paths for 'train' and 'val' directories,
# ensuring data leakage protection between the learning and evaluation phases.
results = model.train(data="dataset.yaml", epochs=50, imgsz=640)

Link to this sectionAbgrenzung von Datenlecks gegenüber verwandten Konzepten#

Da sich die Terminologie zwischen Data Science und Cybersicherheit oft überschneidet, ist es wichtig, Datenlecks von eng verwandten Ideen zu unterscheiden.

  • Overfitting: Während beide Probleme dazu führen, dass Modelle in der Produktion versagen, bedeutet Overfitting, dass das Modell das natürliche Rauschen innerhalb eines gültigen, isolierten Trainingssatzes auswendig gelernt hat. Ein Datenleck bedeutet, dass das Modell unrechtmäßigen Zugriff auf die Testantworten hatte.
  • Data Security: In der IT-Welt umfasst die Vermeidung von Datenlecks das preventing unauthorized data exposure mittels Firewalls, Verschlüsselung und strengen Zugriffskontrollen. Dies fällt unter unternehmensweite data privacy Frameworks. Sicherheitsunternehmen konzentrieren sich stark auf diesen Aspekt, über den du mehr in der Rapid7 threat intelligence oder der SecurityScorecard's prevention overview lesen kannst. Alternativ beschreibt die Wiz's data security academy, wie Fehlkonfigurationen in der Cloud zu solchen Offenlegungen führen, was sich grundlegend von der algorithmischen Kontaminierung im Machine Learning unterscheidet.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens