Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Data Lake

Explore como os data lakes servem de base para IA e ML. Aprenda a aproveitar dados brutos para treinar Ultralytics e otimizar fluxos de trabalho de visão computacional.

Um data lake é um repositório de armazenamento centralizado que mantém uma grande quantidade de dados brutos no seu formato nativo até que sejam necessários. Ao contrário dos sistemas de armazenamento tradicionais, que exigem que os dados sejam estruturados antes da entrada, um data lake aceita os dados "como estão", incluindo dados estruturados (linhas e colunas), semiestruturados (CSV, logs, XML, JSON) e não estruturados (e-mails, documentos, PDFs) e binários (imagens, áudio, vídeo). Essa flexibilidade arquitetónica torna os data lakes a base das estratégias modernas de estratégias de Big Data, especialmente para organizações que utilizam Inteligência Artificial (IA) e Aprendizagem Automática (ML). Ao separar a captura de dados do uso de dados, as organizações podem armazenar enormes conjuntos de informações de forma relativamente barata e descobrir as questões específicas de análise posteriormente.

O papel dos data lakes na IA e na aprendizagem automática

No contexto do desenvolvimento da IA, o principal valor de um data lake reside na sua capacidade de suportar fluxos de trabalho de Deep Learning (DL). As redes neurais avançadas requerem dados de treino diversificados e volumosos para alcançar alta precisão. Um data lake atua como um campo de preparação onde os ativos brutos — como milhões de imagens de alta resolução para visão computacional (CV) ou milhares de horas de áudio para reconhecimento de voz— residem antes de serem processados.

Os cientistas de dados utilizam metodologias de "esquema na leitura" dentro dos data lakes. Isso significa que a estrutura é aplicada aos dados apenas quando eles são lidos para processamento, e não quando são gravados no armazenamento. Isso permite uma enorme agilidade; o mesmo conjunto de dados brutos pode ser processado de várias maneiras para diferentes tarefas de modelagem preditiva, sem alterar a fonte original. Além disso, data lakes robustos geralmente se integram a serviços de computação em nuvem, como Amazon S3 ou Azure Blob Storage, permitindo o processamento paralelo e escalável necessário para treinar modelos pesados, como o YOLO26.

Data Lake vs. Data Warehouse

Embora muitas vezes confundido, um data lake é diferente de um data warehouse. Um data warehouse armazena dados em tabelas estruturadas e é otimizado para consultas SQL rápidas e relatórios de business intelligence. Ele usa "schema-on-write", o que significa que os dados devem ser limpos e transformados por meio de um processo ETL (Extract, Transform, Load) antes de entrar no sistema.

Por outro lado, um data lake é otimizado para volume e variedade de armazenamento. Ele suporta aprendizagem não supervisionada e análise exploratória , onde o objetivo pode ainda não estar definido. Por exemplo, um data warehouse pode dizer quantos produtos foram vendidos no mês passado, enquanto um data lake contém os registos brutos de opinião dos clientes e dados de imagem que ajudam um modelo de IA a entender por que eles foram vendidos.

Aplicações no Mundo Real

Os data lakes são fundamentais em vários setores, ampliando os limites da automação:

  • Veículos autónomos: o desenvolvimento da tecnologia de condução autónoma requer o processamento de petabytes de dados de sensores. Os veículos autónomos geram fluxos contínuos de nuvens de pontos LiDAR, sinais de radar e vídeos de alta definição. Um data lake armazena esses dados telemétricos brutos, permitindo que os engenheiros reproduzam cenários do mundo real para treinar modelos de deteção de objetos para identificar pedestres e obstáculos em condições climáticas variáveis.
  • Diagnósticos de saúde: Na análise moderna de imagens médicas, os hospitais consolidam o histórico do paciente, dados genómicos e ficheiros de imagens (ressonância magnética, tomografia computadorizada) num data lake seguro. Os investigadores podem então aceder a esses dados anónimos e não estruturados para treinar modelos para detecção de tumores ou previsão de doenças, muitas vezes utilizando técnicas de segmentação para isolar regiões de interesse nas imagens médicas.

Utilizando Data Lakes com Ultralytics

Ao trabalhar com a Ultralytics , os utilizadores frequentemente extraem subconjuntos de dados brutos do data lake da sua organização para criar conjuntos de dados anotados para treino. Depois que as imagens brutas são recuperadas e rotuladas, elas podem ser usadas para treinar modelos de última geração.

O exemplo a seguir demonstra como um programador pode carregar um conjunto de dados local (imitando uma busca num data lake) para treinar o modelo YOLO26 para uma tarefa de deteção.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora