데이터 레이크의 정의, 특징, 장점 및 AI/ML에서의 역할을 알아보세요. 빅 데이터 관리 및 분석을 어떻게 혁신하는지 살펴보세요.
데이터 레이크는 방대한 양의 데이터를 원시 형식으로 보관하도록 설계된 중앙 집중식 스토리지 저장소입니다. 파일이나 폴더에 데이터를 저장하는 기존의 계층적 데이터 웨어하우스와 달리, 데이터 레이크는 플랫 아키텍처를 사용해 데이터를 저장하며, 보통 객체 스토리지에 저장합니다. 이 접근 방식을 통해 조직은 관계형 데이터베이스, 세미데이터베이스 관계형 데이터베이스, 반정형 데이터(예: CSV, 로그, XML, JSON), 그리고 비정형 데이터 (이메일, 문서, PDF 등) 바이너리 데이터(이미지, 오디오, 비디오)를 처리하지 않고도 처리할 수 있습니다. 다음 분야에서 일하는 전문가용 인공지능(AI) 및 머신 러닝(ML) 전문가를 위한 이 아키텍처 는 실험과 분석을 위해 방대한 데이터 세트에 유연하게 액세스할 수 있는 기능을 제공합니다.
데이터 레이크의 주요 장점은 데이터 과학자를 위한 데이터 레이크의 주요 장점은 "스키마 온-읽기" 기존 데이터베이스에서는 데이터를 저장하기 전에 구조(스키마)를 정의해야 합니다. (스키마 온 쓰기). 데이터 레이크에서는 원시 데이터가 먼저 저장되고, 처리를 위해 데이터를 읽을 때만 구조가 적용됩니다. 처리할 때만 구조가 적용됩니다. 이는 다음과 같은 경우에 매우 중요합니다. 딥 러닝(DL) 워크플로우에서 매우 중요합니다. 전처리 요구 사항이 모델이 발전함에 따라 자주 변경되는 딥 러닝(DL) 워크플로우에 매우 중요합니다.
엔지니어는 종종 클라우드 컴퓨팅 서비스 Amazon S3 또는 Azure 데이터 레이크 스토리지 와 같은 클라우드 컴퓨팅 서비스를 활용하여 리포지토리를 구축합니다. 이러한 플랫폼은 다음과 같은 처리 프레임워크와 원활하게 통합됩니다. Apache Spark와 같은 처리 프레임워크와 원활하게 통합되어 효율적인 쿼리 및 페타바이트 규모의 데이터 세트에 대한 데이터 분석이 가능합니다.
다음은 Python 스크립트가 레이크 환경에서 가져온 데이터를 가리키는 데이터 세트 구성 파일을 사용하여 학습을 시작하는 간단한 예시입니다. 을 가리키는 데이터 세트 구성 파일을 사용하여 학습을 시작하는 간단한 예제입니다:
from ultralytics import YOLO
# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
데이터 레이크는 최신 빅 데이터 이니셔티브의 중추입니다. 의 중추입니다.
데이터 레이크는 다른 스토리지 개념과 차별화하는 것이 중요합니다:
데이터 레이크를 구현하면 상당한 확장성을 제공하므로 조직은 기존 웨어하우스에 비해 저렴한 비용으로 스토리지 용량을 기존 웨어하우스에 비해 저렴한 비용으로 확장할 수 있습니다. 데이터 레이크는 데이터 민주화를 촉진하여 다양한 팀이 데이터 시각화부터 고급 연구까지 다양한 목적으로 동일한 원시 데이터 소스에 액세스할 수 있습니다. 데이터 시각화부터 고급 연구까지 다양한 팀이 동일한 원시 데이터 소스에 액세스할 수 있습니다.
그러나 다음과 같은 과제가 있습니다. 데이터 프라이버시 및 규정 준수, 특히 민감한 개인 정보(PII)를 저장할 때 그렇습니다. 또한, 강력한 데이터 전처리 파이프라인 및 거버넌스 도구가 없다면 방대한 양의 원시 데이터에서 가치 있는 귀중한 인사이트를 찾는 것은 어려울 수 있습니다.