Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Озеро данных

Узнайте, что такое озера данных, их особенности, преимущества и роль в AI/ML. Узнайте, как они преобразуют управление большими данными и аналитику.

Озеро данных - это централизованное хранилище, предназначенное для хранения огромного количества данных в их исходном, необработанном формате. В отличие от традиционного иерархического хранилища данных, где данные хранятся в файлах или папках, озеро данных использует плоскую архитектуру для хранения данных. архитектура для хранения данных, обычно в объектном хранилище. Такой подход позволяет организациям хранить структурированные данные из реляционных баз данных, полуструктурированные данные (например, CSV, журналы, XML, JSON) и неструктурированные данные (например, электронные письма, документы и PDF-файлы) а также бинарные данные (изображения, аудио, видео) без предварительной обработки. Для специалистов, работающих в области искусственном интеллекте (ИИ) и машинном обучении (ML), эта архитектура обеспечивает гибкость доступа к огромным массивам данных для экспериментов и анализа.

Роль озер данных в рабочих процессах искусственного интеллекта

Основное преимущество озера данных для специалистов по исследованию данных является возможность применения "схему при чтении". В традиционных базах данных структура (схема) должна быть определена до того, как данные будут сохранены. (схема при записи). В озере данных сначала хранятся необработанные данные, а структура применяется только тогда, когда данные чтения для обработки. Это очень важно для рабочих процессов глубокого обучения (DL), где требования к предварительной обработке часто меняются по мере развития моделей.

Инженеры часто пользуются услугами облачных вычислений такие как Amazon S3 или Azure Data Lake Storage для создания таких хранилищ. Эти платформы легко интегрируются с такими фреймворками для обработки данных, как Apache Spark, что позволяет эффективно выполнять запросы и аналитику данных на петабайтных массивах.

Вот простой пример того, как сценарий Python может начать обучение, используя файл конфигурации набора данных, который указывает на данные, взятые из среды озера:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Применение в реальном мире

Озера данных являются основой современных инициатив по созданию Больших Данных в различных отраслях.

  1. Автономные транспортные средства: Разработка самоуправляемых автомобилей требует обработки данных о движении на протяжении миллионов километров. Автомобили генерируют необработанные данные датчиков журналы, облака точек LiDAR и видеоматериалы высокого разрешения. Все эти разнородные данные сбрасываются в озеро данных. Затем исследователи запрашивают конкретные сценарии, например "снежная погода" или "пешеходы в темное время суток", чтобы чтобы создать разнообразные обучающие наборы для моделей обнаружения объектов. Это позволяет постоянное совершенствование ИИ в автомобильных системах безопасности.
  2. Анализ медицинских изображений: Медицинские учреждения генерируют огромные объемы данных визуализации (рентгеновские снимки, МРТ, КТ) в таких форматах, как DICOM. A Озеро данных позволяет больницам централизовать эту информацию наряду с электронными медицинскими картами пациентов (EHR). Исследователи могут получить доступ к этим мультимодальным данным для обучения диагностических моделей, например, с помощью YOLO11 для выявления аномалий на снимках, что значительно значительно продвигая ИИ в здравоохранении.

Различение смежных понятий

Важно отличать Data Lake от других концепций хранения данных:

  • Озеро данных против хранилища данных: A В хранилище данных хранятся высокоструктурированные, обработанные данные, оптимизированные для составления отчетов и бизнес-аналитики. Озеро данных хранит необработанные данные для исследовательского анализа и прогнозного моделирования.
  • Озеро данных против болота данных: Болото данных" - это разрушенное озеро данных, которым плохо управляют. управление, отсутствие соответствующих метаданных или управления, что делает данные невосстановимыми или непригодными для использования. Эффективный Эффективная защита данных и каталогизация необходимы для чтобы предотвратить это.
  • Озеро данных против базы данных: Традиционные реляционные базы данных (РСУБД), такие как PostgreSQL, предназначены для транзакционной обработки данных с жесткими схемами, В то время как озера данных предназначены для аналитической обработки разнообразных типов данных.

Преимущества и проблемы

Внедрение озера данных обеспечивает значительную масштабируемость, позволяя организациям увеличивать объем хранилища емкость хранилища при меньших затратах по сравнению с традиционными хранилищами. Оно способствует демократизации данных, предоставляя различным командам доступ к одному и тому же источнику необработанных данных для различных целей, от от визуализации данных до передовых исследований.

Однако существуют проблемы, связанные с поддержанием конфиденциальность данных и соблюдение нормативных требований, особенно при хранении конфиденциальной личной информации (PII). Кроме того, без надежных конвейеров предварительной обработки данных и инструментов управления таких инструментов, как Databricks Unity Catalog, поиск ценных найти ценные сведения среди большого количества необработанных данных может быть непросто.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас