Glossário

Data Lake

Descubra o que são data lakes, seus recursos, benefícios e papel em IA/ML. Aprenda como eles transformam o gerenciamento e a análise de big data.

Um Data Lake é um repositório de armazenamento centralizado concebido para armazenar uma grande quantidade de dados no seu formato nativo e em bruto. Ao contrário de um armazém de dados hierárquico tradicional que armazena dados em ficheiros ou pastas, um lago de dados utiliza uma arquitetura plana para armazenar dados, normalmente em armazenamento de objectos. Esta abordagem permite às organizações armazenar dados estruturados estruturados de bases de dados relacionais, dados semi-estruturados (como CSV, registos, XML, JSON) e dados não estruturados (como e-mails, documentos e PDFs) bem como dados binários (imagens, áudio, vídeo) sem os processar previamente. Para os profissionais que trabalham em inteligência artificial (IA) e aprendizagem automática (ML), esta arquitetura proporciona a flexibilidade para aceder a conjuntos de dados maciços para experimentação e análise.

O papel dos Data Lakes nos fluxos de trabalho de IA

A principal vantagem de um lago de dados para cientistas de dados é a capacidade de aplicar "esquema na leitura". Nas bases de dados tradicionais, a estrutura (esquema) deve ser definida antes de os dados serem armazenados (schema-on-write). Em um lago de dados, os dados brutos são armazenados primeiro, e a estrutura é aplicada somente quando os dados são lidos para processamento. Isso é fundamental para fluxos de trabalho de aprendizagem profunda (DL) em que os requisitos de pré-processamento mudam frequentemente à medida que os modelos evoluem.

Os engenheiros recorrem frequentemente a serviços de computação em nuvem como o Amazon S3 ou o Armazenamento do Lago de Dados do Azure para criar estes repositórios. Estas plataformas integram-se perfeitamente com estruturas de processamento como o Apache Spark, permitindo consultas eficientes e análise de dados em conjuntos de dados à escala de petabytes.

Aqui está um exemplo simples de como um script Python pode iniciar o treino utilizando um ficheiro de configuração de conjunto de dados que aponta para dados extraídos de um ambiente de lago:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Aplicações no Mundo Real

Os lagos de dados são a espinha dorsal das iniciativas modernas de Big Data em vários sectores.

Veículos autónomos: O desenvolvimento de veículos autónomos requer o processamento de milhões de quilómetros de dados de condução. Os veículos geram registos de sensores sensores, nuvens de pontos LiDAR e imagens de vídeo de alta resolução. Todos estes dados heterogéneos são despejados num lago de dados. Em seguida, os investigadores consultam cenários específicos - como "tempo com neve" ou "peões à noite" - para criar diversos conjuntos de treino para modelos de deteção de objectos. Isto permite a melhoria contínua da IA nos sistemas de segurança automóvel.
Análise de imagens médicas: As instituições de saúde geram enormes quantidades de dados de imagiologia (raios X, ressonâncias magnéticas, tomografias computorizadas) em formatos como DICOM. A permite aos hospitais centralizar esta informação juntamente com os registos de saúde electrónicos (EHR) dos pacientes. Os investigadores podem então aceder a estes dados multimodais para treinar modelos de diagnóstico, por exemplo, utilizando YOLO11 para identificar anomalias em exames, avançando significativamente a IA nos cuidados de saúde.

Distinguir conceitos relacionados

É importante diferenciar um Data Lake de outros conceitos de armazenamento:

Data Lake vs. Data Warehouse: A Data Warehouse armazena dados altamente estruturados, e processados, optimizados para relatórios e business intelligence. Um Data Lake armazena dados brutos para análise exploratória análise exploratória e modelagem preditiva.
Lago de dados vs. Pântano de dados: Um "pântano de dados" é um lago de dados deteriorado que é mal mal gerido, sem metadados ou governação adequados, tornando os dados irrecuperáveis ou inutilizáveis. A segurança e a catalogação segurança e catalogação eficazes dos dados são necessárias para evitar que isso aconteça.
Data Lake vs. Base de dados: As bases de dados relacionais tradicionais (RDBMS) como PostgreSQL são concebidas para o processamento transacional com esquemas rígidos, enquanto os lagos de dados são concebidos para o processamento analítico de diversos tipos de dados.

Benefícios e Desafios

A implementação de um lago de dados oferece uma escalabilidade significativa, permitindo às organizações expandir a capacidade de armazenamento capacidade de armazenamento a um custo mais baixo em comparação com os armazéns tradicionais. Promove a democratização dos dados, dando várias equipas acesso à mesma fonte de dados brutos para diferentes fins, desde a visualização de dados a investigação avançada.

No entanto, os desafios incluem manter privacidade dos dados e a conformidade, especialmente quando se armazenam informações pessoais sensíveis (PII). Além disso, sem uma pipelines de pré-processamento de dados e ferramentas de ferramentas de governança como o Databricks Unity Catalog, encontrar valiosos em meio ao volume de dados brutos pode ser difícil.

Data Lake

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

O papel dos Data Lakes nos fluxos de trabalho de IA

Aplicações no Mundo Real

Distinguir conceitos relacionados

Benefícios e Desafios

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

O que é destilação de conjuntos de dados? Uma rápida visão geral

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

Junte-se à comunidade Ultralytics