YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

데이터 레이크

데이터 레이크의 정의, 특징, 장점 및 AI/ML에서의 역할을 알아보세요. 빅 데이터 관리 및 분석을 어떻게 혁신하는지 살펴보세요.

데이터 레이크는 모든 구조적, 반정형 및 비정형 데이터를 모든 규모로 저장할 수 있는 중앙 집중식 저장소입니다. 데이터를 미리 정의된 처리된 형식으로 저장하는 기존 데이터 웨어하우스와 달리 데이터 레이크는 필요할 때까지 방대한 양의 원시 데이터를 원래 형식으로 보관합니다. 인공 지능(AI) 및 머신 러닝(ML)의 경우 이 아키텍처는 데이터 과학자에게 유연하고 방대한 원본 데이터 풀을 제공하므로 복잡한 모델을 학습하고 탐색적 분석을 수행하며 초기 스키마에 제약받지 않고 새로운 패턴을 발견하는 데 매우 강력합니다.

AI 및 머신 러닝에서 데이터 레이크는 어떻게 작동하는가

일반적인 AI 워크플로우에서 데이터 레이크는 잠재적인 모든 데이터 소스에 대한 주요 진실 소스 역할을 합니다. 이 프로세스는 사용자 로그, 소셜 미디어 피드, IoT 센서 판독값, 이미지 및 비디오와 같은 다양한 소스의 원시 데이터가 레이크에 로드되는 데이터 수집으로 시작됩니다. 이 데이터는 원래의 수정되지 않은 상태로 저장됩니다. 새로운 컴퓨터 비전(CV) 모델 학습과 같은 프로젝트가 시작되면 엔지니어는 레이크에 액세스하여 관련 데이터 하위 집합을 추출할 수 있습니다. 이 '읽기 시 스키마' 접근 방식은 구조가 수집 시가 아니라 데이터 분석데이터 전처리 단계에서 적용됨을 의미합니다. 이 유연성은 모델이 진화함에 따라 데이터 요구 사항이 변경될 수 있는 반복적인 ML 개발에 매우 중요합니다. AWSGoogle Cloud와 같은 주요 클라우드 컴퓨팅 제공업체는 데이터 레이크 구축 및 관리를 위한 강력한 서비스를 제공합니다.

실제 AI/ML 애플리케이션

데이터 레이크는 다양하고 방대한 데이터 세트에 의존하는 대규모 AI 솔루션을 개발하는 데 기본적입니다.

  1. 자율 주행 차량 개발: 자율 주행 자동차는 LiDAR 포인트 클라우드, 고해상도 비디오 및 레이더 판독값을 포함하여 매일 테라바이트의 원시 센서 데이터를 생성합니다. 이 빅 데이터는 데이터 레이크로 스트리밍됩니다. 엔지니어와 연구원은 나중에 이 방대한 저장소를 쿼리하여 밤에 예기치 않게 도로를 건너는 보행자와 같이 드물거나 어려운 시나리오를 찾아 모델 학습 및 시뮬레이션에 사용할 수 있습니다. 이를 통해 객체 감지와 같은 작업에 대한 인식 모델을 지속적으로 개선하고 에지 케이스에 대해 강력하게 만들 수 있습니다. Databricks와 같은 플랫폼은 이러한 워크플로를 관리하는 데 자주 사용됩니다.
  2. 의료 영상 분석: 병원 및 연구 기관은 다양한 장비의 의료 영상(MRI, X-레이, CT 스캔)을 다양한 형식으로 수집합니다. 이 데이터를 데이터 레이크에 중앙 집중화함으로써 연구 개발을 위한 풍부하고 다양한 데이터 세트를 만듭니다. 데이터 과학자는 이 원시 이미징 데이터에 액세스하여 진단 AI 모델을 개발할 수 있습니다. 예를 들어 뇌종양 데이터 세트와 같은 컬렉션에서 YOLO 모델을 학습시킬 수 있습니다. 원시 데이터를 저장하면 사전 처리된 형식에서 손실될 수 있는 중요한 세부 정보가 보존되어 보다 정확한 헬스케어 AI 솔루션을 지원합니다.

관련 개념과의 구별

데이터 레이크를 다른 데이터 스토리지 패러다임과 구별하는 것이 중요합니다.

  • 데이터 웨어하우스 vs. 데이터 레이크(Data Warehouse vs. Data Lake): 주요 차이점은 데이터 구조와 목적에 있습니다. 데이터 웨어하우스(Data Warehouse)는 특정 목적, 일반적으로 비즈니스 분석을 위해 처리된 구조화되고 필터링된 데이터를 저장합니다. 이와는 대조적으로 데이터 레이크는 사전 정의된 스키마 없이 모든 유형(구조화, 반구조화 및 비구조화)의 원시 필터링되지 않은 데이터를 저장합니다. 따라서 데이터 레이크는 머신 러닝의 탐색적 특성에 더 적합합니다.
  • 데이터베이스 vs. 데이터 레이크(Database vs. Data Lake): 기존 데이터베이스, 특히 SQL과 같은 관계형 데이터베이스는 데이터를 쓰기 전에 엄격하고 사전 정의된 스키마에 맞게 조정해야 합니다. 이를 "쓰기 시 스키마(schema-on-write)"라고 합니다. 데이터 레이크는 "읽기 시 스키마(schema-on-read)" 접근 방식을 사용하여 이미지, 텍스트 및 센서 로그와 같이 AI에서 일반적인 다양한 데이터 형식을 처리하는 데 필요한 유연성을 제공합니다. 데이터베이스는 빠른 트랜잭션 쿼리에 최적화되어 있지만 데이터 레이크는 Apache Spark와 같은 도구를 사용하여 대규모 분석 처리를 위해 구축되었습니다.
  • 데이터 마이닝 vs. 데이터 레이크: 데이터 레이크는 스토리지 저장소입니다. 반면에 데이터 마이닝은 대규모 데이터 세트에서 패턴과 통찰력을 발견하는 프로세스입니다. 데이터 마이닝 기술은 데이터 레이크 내에 저장된 데이터에 적용됩니다.

이점 및 과제

이점:

  • 유연성: 사전 구조화 없이 모든 소스의 모든 데이터 유형을 저장합니다.
  • 확장성: Apache Hadoop과 같은 분산 스토리지 시스템을 사용하여 테라바이트에서 페타바이트에 이르는 방대한 데이터 볼륨을 쉽게 처리합니다.
  • 비용 효율성: 저렴한 상용 스토리지 활용으로 막대한 양의 데이터를 저렴하게 보관할 수 있습니다.
  • 데이터 민주화: 보고에서 딥 러닝에 이르기까지 다양한 사용 사례를 위해 다양한 팀(데이터 과학자, 분석가, ML 엔지니어)이 원시 데이터에 액세스할 수 있도록 합니다.
  • 미래 보장: 원시 데이터를 무기한 보존하여 현재 존재하지 않는 새로운 도구 및 기술로 미래 분석을 수행할 수 있습니다.

문제점:

  • 데이터 거버넌스: 데이터 품질, 계보 및 액세스 제어를 보장하는 것은 복잡할 수 있습니다.
  • 보안: 중요한 원시 데이터를 보호하려면 강력한 데이터 보안데이터 개인 정보 보호 조치가 필요합니다.
  • 데이터 늪 위험(Data Swamp Risk): 적절한 관리, 메타데이터 및 카탈로그가 없으면 데이터 레이크는 구성이 어렵고 효과적으로 사용하기 어려워 "데이터 늪"으로 변할 수 있으며, 이는 주요 데이터 관리 회사에서 설명하는 개념입니다.
  • 복잡성: 관리 및 분석을 위한 전문 기술이 필요합니다. 데이터 수집에서 모델 배포까지의 라이프사이클 관리에 효과적인 MLOps 사례가 중요합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.