용어집

데이터 레이크

데이터 레이크의 정의, 기능, 이점, AI/ML에서의 역할에 대해 알아보세요. 데이터 레이크가 빅 데이터 관리 및 분석을 어떻게 혁신하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 레이크는 수집 시 미리 정의된 구조나 스키마를 적용하지 않고 방대한 양의 원시 데이터를 기본 형식으로 저장하도록 설계된 중앙 집중식 리포지토리입니다. 데이터를 저장하기 전에 정형화해야 하는 기존 데이터베이스나 데이터 웨어하우스와 달리, Data Lake는 정형(관계형 데이터베이스의 테이블 등), 반정형( JSON 또는 XML 파일 등), 비정형 데이터(이미지, 동영상, 오디오, 텍스트 문서, 센서 로그 등)를 나란히 보관할 수 있습니다. 이러한 유연성은 특히 다양한 데이터 세트가 자주 요구되는 인공 지능(AI)머신 러닝(ML) 분야에서 최신 데이터 분석에 매우 중요한 자산이 됩니다.

핵심 개념

데이터 레이크의 기본 개념은 빅데이터를 위한 비용 효율적이고 확장성이 뛰어난 스토리지 솔루션을 제공하는 것입니다. 주요 특징은 다음과 같습니다:

  • 스키마 온 리드: 데이터 웨어하우스(스키마 온 쓰기)와 달리, 데이터 레이크는 분석을 위해 데이터를 읽을 때만 구조 또는 스키마를 적용합니다. 따라서 원시 데이터를 더 빠르게 수집할 수 있습니다.
  • 원시 데이터 저장: 데이터가 처리되지 않은 원본 형식으로 저장됩니다. 이렇게 하면 모든 세부 정보가 보존되므로 향후 예상치 못한 분석이나 ML 모델 학습에 유용할 수 있습니다.
  • 확장성: 일반적으로 분산 파일 시스템이나 Amazon S3 또는 Google Cloud Storage와 같은 클라우드 스토리지에 구축되는 Data Lakes는 페타바이트 또는 엑사바이트 단위의 데이터로 쉽게 확장할 수 있습니다.
  • 다양한 데이터 유형: 컴퓨터 비전(CV)과 같은 영역에서 포괄적인 분석에 필수적인 다양한 소스의 다양한 데이터 형식을 수용합니다. 자세한 내용은 데이터 레이크에 대한 AWS 설명서를 참조하세요.

데이터 레이크 대 데이터 웨어하우스

데이터 레이크와 데이터 웨어하우스는 모두 대량의 데이터를 저장하는 데 사용되지만, 서로 다른 용도로 사용되며 데이터를 처리하는 방식도 다릅니다.

  • 데이터 웨어하우스: 특정 목적에 맞게 이미 처리된 필터링된 구조화된 데이터를 저장합니다(스키마 온 쓰기). 비즈니스 인텔리전스 보고 및 SQL 쿼리에 최적화되어 있습니다. 정수되어 바로 마실 수 있는 생수 저장소라고 생각하면 됩니다. 자세한 내용은 IBM의 데이터 웨어하우징 개념을 살펴보세요.
  • 데이터 레이크: 원시 데이터를 기본 형식(스키마 온-읽기)으로 저장합니다. 가공되지 않은 원본 데이터에 액세스해야 하는 데이터 탐색, 데이터 마이닝, 머신 러닝(ML) 모델 학습에 이상적입니다. 다양한 소스에서 원시 형태로 제공되는 자연적인 호수라고 생각하면 됩니다. 데이터 전처리는 특정 분석 작업에 맞게 데이터 검색 후에 이루어집니다.

AI와 머신 러닝의 관련성

데이터 레이크는 특히 딥 러닝(DL)에서 많은 AI 및 ML 워크플로우의 기본입니다. 정교한 모델을 훈련하려면 방대한 양의 다양한 원시 데이터를 저장할 수 있는 기능이 필수적입니다. 데이터 과학자는 탐색적 분석, 데이터 정리, 기능 엔지니어링, 고품질 학습 데이터 생성 등의 작업을 위해 이 원시 데이터에 액세스할 수 있습니다. 예를 들어, Ultralytics HUB와 같은 플랫폼은 데이터 레이크 내에서 큐레이션 및 관리되거나 데이터 레이크에서 제공되는 데이터 세트를 활용하여 다음과 같은 사용자 지정 모델을 학습할 수 있습니다. Ultralytics YOLO 와 같은 맞춤형 모델을 훈련하여 객체 감지, 이미지 세분화 또는 이미지 분류와 같은 작업을 수행할 수 있습니다. 이 프로세스에는 데이터가 레이크에 도달하기도 전에 광범위한 데이터 수집 및 주석이 포함되는 경우가 많습니다.

실제 애플리케이션

데이터 레이크는 필요한 데이터의 양과 다양성을 제공함으로써 강력한 AI/ML 애플리케이션을 가능하게 합니다. 다음은 두 가지 예입니다:

  1. 자율주행 차량 개발: 자율 주행 차량을 개발하는 회사는 테스트 차량에서 방대한 양의 센서 데이터(카메라 피드, LiDAR 포인트 클라우드, 레이더, GPS)를 수집합니다. 이 원시 데이터는 데이터 레이크에 덤프됩니다. 그런 다음 엔지니어와 데이터 과학자는 이 데이터에 액세스하여 보행자 및 기타 차량을 식별하는 물체 감지 모델, 차선 유지, 내비게이션 등의 작업을 위한 딥러닝 모델을 훈련하고 검증합니다. Waymo와 같은 기업이 자율 주행 기능을 위해 기술을 어떻게 사용하는지 알아보세요.
  2. 개인화된 추천 시스템 구축: 이커머스 플랫폼과 스트리밍 서비스는 클릭, 시청 기록, 구매 기록, 소셜 미디어 활동, 사용자 인구 통계 등 다양한 사용자 상호 작용 데이터를 저장하기 위해 데이터 레이크를 활용합니다. 이 원시 데이터는 데이터 레이크에서 직접 Apache Spark와 같은 도구를 사용해 처리됩니다. 그런 다음 이 처리된 데이터를 기반으로 머신러닝 모델을 학습시켜 개인화된 추천 시스템을 생성하고, AI 기반 리테일 솔루션에서 볼 수 있듯이 사용자 참여도와 매출을 향상시킵니다.

혜택과 과제

혜택:

  • 유연성: 사전 구조화 없이 모든 데이터 유형을 저장합니다.
  • 확장성: 대용량 데이터도 쉽게 처리합니다.
  • 비용 효율성: 저렴한 스토리지 옵션을 활용합니다.
  • 데이터 민주화: 다양한 팀(데이터 과학자, 분석가)이 원시 데이터에 액세스할 수 있도록 합니다.
  • 미래 대비: 향후 알 수 없는 사용 사례를 위해 원시 데이터를 보존합니다.

도전 과제:

  • 데이터 거버넌스: 데이터 품질, 계보 및 액세스 제어를 보장하는 것은 복잡할 수 있습니다.
  • 보안: 민감한 원시 데이터를 보호하려면 강력한 데이터 보안데이터 개인정보 보호 조치가 필요합니다.
  • 데이터 늪 위험: 적절한 관리와 메타데이터가 없으면 데이터 레이크가 무질서해지고 효과적으로 사용하기 어려워질 수 있습니다("데이터 늪").
  • 복잡성: 관리 및 분석을 위한 전문 기술이 필요합니다. 효과적인 MLOps 관행이 중요합니다.

데이터 레이크는 최신 AI 솔루션을 구동하는 데 필요한 데이터의 양과 다양성을 처리하는 데 필요한 규모와 유연성을 제공합니다. 고급 분석과 머신 러닝 혁신을 지원하는 데이터 인프라의 핵심 구성 요소입니다.

모두 보기