Glossário

Lago de dados

Descubra o que são os lagos de dados, as suas caraterísticas, vantagens e papel na IA/ML. Saiba como transformam a gestão e a análise de grandes volumes de dados.

Um Data Lake é um repositório centralizado que lhe permite armazenar todos os seus dados estruturados, semi-estruturados e não estruturados em qualquer escala. Ao contrário de um armazém de dados tradicional que armazena dados num formato predefinido e processado, um Data Lake mantém uma vasta quantidade de dados em bruto no seu formato nativo até ser necessário. Para a inteligência artificial (IA) e a aprendizagem automática (ML), esta arquitetura é incrivelmente poderosa porque fornece aos cientistas de dados um conjunto flexível e maciço de dados originais, perfeito para treinar modelos complexos, efetuar análises exploratórias e descobrir novos padrões sem estar limitado por um esquema inicial.

Como funcionam os lagos de dados na IA e na aprendizagem automática

Num fluxo de trabalho de IA típico, um Data Lake serve como a principal fonte de verdade para todas as potenciais fontes de dados. O processo começa com a ingestão de dados, em que os dados brutos de várias fontes - como registos de utilizadores, feeds de redes sociais, leituras de sensores IoT, imagens e vídeos - são carregados no lago. Estes dados são armazenados no seu estado original, não modificado. Quando um projeto começa, como o treino de um novo modelo de visão por computador (CV), os engenheiros podem aceder ao lago para extrair um subconjunto de dados relevante. Esta abordagem "schema-on-read" significa que a estrutura é aplicada durante as fases de análise de dados e de pré-processamento de dados, e não após a ingestão. Esta flexibilidade é fundamental para o desenvolvimento iterativo de ML, em que os requisitos de dados podem mudar à medida que o modelo evolui. Os principais fornecedores de computação em nuvem, como a AWS e a Google Cloud, oferecem serviços robustos para a criação e gestão de lagos de dados.

Aplicações IA/ML do mundo real

Os Data Lakes são fundamentais para o desenvolvimento de soluções de IA em grande escala que dependem de conjuntos de dados diversos e volumosos.

  1. Desenvolvimentode veículos autónomos: Uma frota de carros autónomos gera diariamente terabytes de dados brutos de sensores, incluindo nuvens de pontos LiDAR, vídeo de alta resolução e leituras de radar. Este Big Data é transmitido para um Data Lake. Os engenheiros e investigadores podem posteriormente consultar este enorme repositório para encontrar cenários raros ou desafiantes - como um peão que atravessa inesperadamente uma estrada à noite - para utilizar no treino e simulação de modelos. Isto permite a melhoria contínua dos modelos de perceção para tarefas como a deteção de objectos e garante a sua robustez contra casos extremos. Plataformas como a Databricks são frequentemente utilizadas para gerir estes fluxos de trabalho.
  2. Análise de imagens médicas: Os hospitais e as instituições de investigação recolhem imagens médicas (ressonâncias magnéticas, raios X, tomografias computorizadas) de várias máquinas em diferentes formatos. Ao centralizar estes dados num Data Lake, criam um conjunto de dados rico e diversificado para investigação e desenvolvimento. Os cientistas de dados podem aceder a estes dados de imagiologia em bruto para desenvolver modelos de IA de diagnóstico, por exemplo, treinando um modelo YOLO numa coleção como o conjunto de dados de tumores cerebrais. O armazenamento dos dados em bruto preserva detalhes críticos que podem ser perdidos em formatos pré-processados, suportando soluções de IA mais precisas nos cuidados de saúde.

Distinção de conceitos relacionados

É importante diferenciar os Data Lakes de outros paradigmas de armazenamento de dados.

  • Data Warehouse vs. Data Lake: A principal diferença reside na estrutura e no objetivo dos dados. Um Data Warehouse armazena dados estruturados e filtrados que foram processados para um objetivo específico, normalmente a análise empresarial. Em contrapartida, um Data Lake armazena dados brutos e não filtrados de todos os tipos (estruturados, semi-estruturados e não estruturados) sem um esquema predefinido. Isto torna os Data Lakes mais adequados para a natureza exploratória da aprendizagem automática.
  • Base de dados vs. Data Lake: Um banco de dados tradicional, especialmente um relacional como o SQL, exige que os dados se encaixem em um esquema estrito e predefinido antes que possam ser gravados. Isso é conhecido como "schema-on-write". Os Data Lakes utilizam uma abordagem "schema-on-read", proporcionando a flexibilidade necessária para lidar com os diversos formatos de dados comuns na IA, como imagens, texto e registos de sensores. Enquanto os bancos de dados são otimizados para consultas transacionais rápidas, os Data Lakes são criados para processamento analítico em grande escala usando ferramentas como o Apache Spark.
  • Data Mining vs. Data Lake: Um Data Lake é um repositório de armazenamento. O Data Mining, por outro lado, é o processo de descoberta de padrões e informações a partir de grandes conjuntos de dados. As técnicas de extração de dados são aplicadas aos dados armazenados num Data Lake.

Benefícios e desafios

Benefícios:

  • Flexibilidade: Armazena qualquer tipo de dados de qualquer fonte sem estruturação prévia.
  • Escalabilidade: Lida facilmente com volumes de dados maciços, de terabytes a petabytes, utilizando sistemas de armazenamento distribuídos como o Apache Hadoop.
  • Custo-eficácia: Aproveita o armazenamento de mercadorias de baixo custo, tornando acessível a retenção de grandes quantidades de dados.
  • Democratização de dados: Torna os dados brutos acessíveis a várias equipas (cientistas de dados, analistas, engenheiros de ML) para vários casos de utilização, desde relatórios a aprendizagem profunda.
  • Preparado para o futuro: Preserva os dados em bruto indefinidamente, permitindo uma análise futura com novas ferramentas e técnicas que não existem atualmente.

Desafios:

  • Governação de dados: Garantir a qualidade dos dados, a linhagem e o controlo de acesso pode ser complexo.
  • Segurança: A proteção de dados brutos sensíveis exige medidas robustas de segurança e privacidade dos dados.
  • Risco de pântano de dados: Sem uma gestão, metadados e catalogação adequados, um Data Lake pode tornar-se desorganizado e difícil de utilizar eficazmente, transformando-se num "pântano de dados", um conceito explicado pelas principais empresas de gestão de dados.
  • Complexidade: Requer competências especializadas para a gestão e análise. As práticas eficazes de MLOps são cruciais para gerir o ciclo de vida desde a ingestão de dados até à implementação do modelo.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência