Узнайте, как прослеживаемость данных обеспечивает прозрачность и воспроизводимость ИИ. Изучите возможности отслеживания происхождения данных для наборов данных компьютерного зрения с помощью Ultralytics .
Происхождение данных — это полная историческая запись о происхождении, метаданных и преобразованиях данных на протяжении всего их прохождения через конвейер машинного обучения. В контексте искусственного интеллекта и компьютерного зрения оно предоставляет подробную цепочку происхождения, отражающую, как набор данных для компьютерного зрения был собран, обработан и модифицирован перед подачей в нейронную сеть. Понимание происхождения данных имеет решающее значение для обеспечения безопасности ИИ, обеспечения строгой воспроизводимости и соблюдения требований новых правовых рамок, таких как Закон Европейского союза об ИИ.
Ведение четкого учета эволюции данных помогает инженерным командам создавать надежные и достоверные модели. При обучении сложной архитектуры, такой как Ultralytics , точное знание того, какие методы расширения данных были применены или как этапы предварительной обработки данных изменили исходные изображения, имеет решающее значение для отладки. Если точность модели неожиданно снижается, инженер может проследить происхождение данных, чтобы выявить поврежденные файлы, отсутствующие аннотации или нерепрезентативный разбиение обучающих данных.
Это понятие тесно связано с мечением данных, но отличается от него. В то время как мечение сосредоточено на непосредственных метках или ограничительных прямоугольниках, наносимых на изображение, прослеживание происхождения данных отслеживает «кто, что, когда и где» на протяжении весь жизненный цикл набора данных. Такое комплексное отслеживание помогает снизить системную предвзятость наборов данных, выявляя несбалансированность источников.
Надежный мониторинг данных широко применяется во всех отраслях для обеспечения прозрачности в сфере искусственного интеллекта:
В современных рабочих процессах часто используются централизованные рабочие пространства, такие как Ultralytics , для обеспечения интеллектуального управления наборами данных. Это гарантирует надлежащий контроль версий аннотаций, что упрощает сравнение различных итераций набора данных. Ведущие фреймворки, такие как PyTorch и TensorFlow также поощряют использование методов структурированной загрузки данных, которые сохраняют ценные метаданные.
При обучении модели сохранение структуры набора данных служит основой для обеспечения прослеживаемости. В
ultralytics пакете вы можете определить пути к наборам данных и классы в
Файл конфигурации YAML, который автоматически сохраняется в
каталоге обучения для сохранения истории настроек эксперимента.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model; the coco8.yaml dataset config is copied and logged for provenance
results = model.train(data="coco8.yaml", epochs=10, project="Run_History", name="experiment_1")
Благодаря внедрению надёжных методов отслеживания организации могут способствовать соблюдению этических принципов в сфере ИИ и обеспечить, чтобы их системы машинного обучения были прозрачными, надёжными и заслуживающими доверия с самого начала.
Начните свой путь в будущее машинного обучения