Data Lake
데이터 레이크가 어떻게 AI와 ML의 기반 역할을 하는지 탐구해 보십시오. Ultralytics YOLO26 학습을 위해 원시 데이터를 활용하고 컴퓨터 비전 워크플로우를 간소화하는 방법을 배우십시오.
데이터 레이크는 필요한 시점까지 방대한 양의 원시 데이터를 기본 형식 그대로 저장하는 중앙 집중식 저장소입니다. 입력을 위해 데이터를 구조화해야 하는 기존 저장 시스템과 달리, 데이터 레이크는 정형 데이터(행과 열), 반정형 데이터(CSV, 로그, XML, JSON), 비정형 데이터(이메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)를 포함한 모든 데이터를 "있는 그대로" 수용합니다. 이러한 아키텍처의 유연성 덕분에 데이터 레이크는 현대의 빅데이터 전략, 특히 인공지능(AI) 및 머신러닝(ML)을 활용하는 조직의 핵심 요소가 되었습니다. 데이터 수집과 데이터 사용을 분리함으로써 조직은 방대한 정보 풀을 상대적으로 저렴하게 저장하고 나중에 구체적인 분석 질문을 도출할 수 있습니다.
Link to this sectionAI 및 머신러닝에서 데이터 레이크의 역할#
AI 개발 맥락에서 데이터 레이크의 주된 가치는 딥러닝(DL) 워크플로를 지원하는 능력에 있습니다. 고급 신경망이 높은 정확도를 달성하려면 다양하고 방대한 훈련 데이터가 필요합니다. 데이터 레이크는 컴퓨터 비전(CV)을 위한 수백만 장의 고해상도 이미지나 음성 인식을 위한 수천 시간의 오디오와 같은 원시 자산이 처리되기 전에 머무는 스테이징 공간 역할을 합니다.
Data scientists use "schema-on-read" methodologies within data lakes. This means the structure is applied to the data only when it is read for processing, rather than when it is written to storage. This allows for immense agility; the same raw dataset can be processed in multiple ways for different predictive modeling tasks without altering the original source. Furthermore, robust data lakes often integrate with cloud computing services like Amazon S3 or Azure Blob Storage, enabling scalable, parallel processing needed for training heavy models like YOLO26.
Link to this section데이터 레이크와 데이터 웨어하우스의 차이#
종종 혼동되기도 하지만, 데이터 레이크는 데이터 웨어하우스와는 다릅니다. 데이터 웨어하우스는 정형화된 테이블에 데이터를 저장하며 빠른 SQL 쿼리 및 비즈니스 인텔리전스 보고에 최적화되어 있습니다. 이 시스템은 "스키마 온 라이트(schema-on-write)"를 사용하므로 데이터가 시스템에 들어가기 전에 ETL(추출, 변환, 적재) 과정을 통해 정제되고 변환되어야 합니다.
반면, 데이터 레이크는 저장 용량과 다양성에 최적화되어 있습니다. 이는 비지도 학습과 목표가 아직 정의되지 않았을 수 있는 탐색적 분석을 지원합니다. 예를 들어 데이터 웨어하우스는 지난달에 제품이 몇 개 판매되었는지 알려줄 수 있지만, 데이터 레이크는 AI 모델이 판매된 이유를 이해하도록 돕는 원시 고객 감정 로그와 이미지 데이터를 보관합니다.
Link to this section실제 애플리케이션 사례#
데이터 레이크는 자동화의 한계를 넓히는 다양한 산업 전반에서 중요한 역할을 합니다:
- 자율주행 자동차: 자율주행 기술을 개발하려면 페타바이트 단위의 센서 데이터를 처리해야 합니다. 자율주행 자동차는 지속적으로 LiDAR 포인트 클라우드, 레이더 신호, 고화질 비디오 스트림을 생성합니다. 데이터 레이크는 이러한 원시 원격 측정 데이터를 저장하여 엔지니어가 실제 시나리오를 재현하고 보행자와 장애물을 식별하도록 객체 탐지 모델을 훈련할 수 있게 합니다.
- 의료 진단: 현대의 의료 영상 분석 분야에서 병원은 환자 기록, 유전체 데이터, 영상 파일(MRI, CT 스캔)을 보안 데이터 레이크로 통합합니다. 연구자들은 이 익명화된 비정형 데이터에 접근하여 종양 탐지나 질병 예측을 위한 모델을 훈련할 수 있으며, 종종 세그멘테이션 기술을 사용하여 의료 영상 내 관심 영역을 격리합니다.
Link to this sectionUltralytics와 함께 데이터 레이크 활용하기#
Ultralytics Platform을 사용할 때 사용자들은 조직의 데이터 레이크에서 원시 데이터의 하위 집합을 가져와 훈련용 주석 데이터셋을 만드는 경우가 많습니다. 원시 이미지를 검색하고 라벨링하면 이를 활용하여 최첨단 모델을 훈련할 수 있습니다.
다음 예제는 개발자가 탐지 작업을 위해 YOLO26 모델을 훈련할 때 로컬 데이터셋을 로드(데이터 레이크에서 데이터를 가져오는 것을 모방)하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")





