Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Происхождение данных

Узнайте, как прослеживаемость данных обеспечивает прозрачность и воспроизводимость ИИ. Изучите возможности отслеживания происхождения данных для наборов данных компьютерного зрения с помощью Ultralytics .

Происхождение данных — это полная историческая запись о происхождении, метаданных и преобразованиях данных на протяжении всего их прохождения через конвейер машинного обучения. В контексте искусственного интеллекта и компьютерного зрения оно предоставляет подробную цепочку происхождения, отражающую, как набор данных для компьютерного зрения был собран, обработан и модифицирован перед подачей в нейронную сеть. Понимание происхождения данных имеет решающее значение для обеспечения безопасности ИИ, обеспечения строгой воспроизводимости и соблюдения требований новых правовых рамок, таких как Закон Европейского союза об ИИ.

Почему важно отслеживать происхождение данных

Ведение четкого учета эволюции данных помогает инженерным командам создавать надежные и достоверные модели. При обучении сложной архитектуры, такой как Ultralytics , точное знание того, какие методы расширения данных были применены или как этапы предварительной обработки данных изменили исходные изображения, имеет решающее значение для отладки. Если точность модели неожиданно снижается, инженер может проследить происхождение данных, чтобы выявить поврежденные файлы, отсутствующие аннотации или нерепрезентативный разбиение обучающих данных.

Это понятие тесно связано с мечением данных, но отличается от него. В то время как мечение сосредоточено на непосредственных метках или ограничительных прямоугольниках, наносимых на изображение, прослеживание происхождения данных отслеживает «кто, что, когда и где» на протяжении весь жизненный цикл набора данных. Такое комплексное отслеживание помогает снизить системную предвзятость наборов данных, выявляя несбалансированность источников.

Применение в реальном мире

Надежный мониторинг данных широко применяется во всех отраслях для обеспечения прозрачности в сфере искусственного интеллекта:

  • Анализ медицинских изображений: в сфере здравоохранения организации обязаны отслеживать происхождение каждого рентгеновского снимка или результата МРТ до клиники-источника в целях соблюдения строгих законов о конфиденциальности данных, таких как HIPAA. Система отслеживания происхождения гарантирует, что модели, выявляющие опухоли с помощью объектного распознавания, обучаются исключительно на медицинских записях, полученных с соблюдением этических норм и подтвержденных самими пациентами.
  • Автономные транспортные средства: компании, занимающиеся производством беспилотных автомобилей, постоянно обновляют свои модели с учетом крайних случаев, таких как заснеженные дороги или зоны дорожных работ. Используя комплексные системы отслеживания происхождения данных, они track , какой именно автомобиль из автопарка снял изображение и при каких погодных условиях. Это позволяет проводить целенаправленную доработку, избегая при этом «катастрофического забывания».

Внедрение рабочих процессов отслеживания происхождения

В современных рабочих процессах часто используются централизованные рабочие пространства, такие как Ultralytics , для обеспечения интеллектуального управления наборами данных. Это гарантирует надлежащий контроль версий аннотаций, что упрощает сравнение различных итераций набора данных. Ведущие фреймворки, такие как PyTorch и TensorFlow также поощряют использование методов структурированной загрузки данных, которые сохраняют ценные метаданные.

При обучении модели сохранение структуры набора данных служит основой для обеспечения прослеживаемости. В ultralytics пакете вы можете определить пути к наборам данных и классы в Файл конфигурации YAML, который автоматически сохраняется в каталоге обучения для сохранения истории настроек эксперимента.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model; the coco8.yaml dataset config is copied and logged for provenance
results = model.train(data="coco8.yaml", epochs=10, project="Run_History", name="experiment_1")

Благодаря внедрению надёжных методов отслеживания организации могут способствовать соблюдению этических принципов в сфере ИИ и обеспечить, чтобы их системы машинного обучения были прозрачными, надёжными и заслуживающими доверия с самого начала.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения