Yolo 비전 선전
선전
지금 참여하기
용어집

빅 데이터

AI/ML에서 빅데이터의 힘을 알아보세요! 대규모 데이터 세트가 머신러닝, 처리 도구 및 실제 애플리케이션을 어떻게 촉진하는지 알아보세요.

빅 데이터는 기존 데이터베이스 관리 도구의 처리 능력을 초과하는 매우 크고 복잡하며 빠르게 증가하는 데이터 세트를 말합니다. 기존 데이터베이스 관리 도구의 처리 능력을 초과하는 데이터 세트를 말합니다. 빅 데이터는 '다섯 가지 특징'이 있습니다: 볼륨(데이터의 양 데이터), 속도(데이터 생성 속도), 다양성(데이터 유형의 다양성), 정확성(품질 및 신뢰성), 가치(도출된 인사이트). 다음 영역에서 인공 지능(AI), 빅 데이터 은 현대의 최신 머신 러닝(ML) 알고리즘을 구동하는 기본 리소스 역할을 합니다. 패턴을 식별하고 예측하며 시간이 지남에 따라 성능을 개선할 수 있습니다.

딥 러닝에서 빅데이터의 중요한 역할

딥러닝(DL) 의 부활은 직접적으로 빅 데이터의 가용성과 직결되어 있습니다. 신경망, 특히 컨볼루션 신경망(CNN)은 효과적으로 일반화하기 위해 방대한 양의 레이블이 지정된 정보가 필요합니다. 예를 들어, 최첨단 모델 같은 Ultralytics YOLO11 와 같은 최신 모델은 객체 탐지 작업에서 높은 정확도를 달성합니다. 다음과 같은 광범위한 벤치마크 데이터 세트 COCOImageNet. 이러한 데이터 세트에는 수백만 개의 이미지가 포함되어 있습니다, 모델이 다양한 조건에서 물체를 인식하는 데 필요한 다양성을 제공합니다.

이러한 방대한 양의 정보를 처리하려면 다음과 같은 확장 가능한 인프라가 필요한 경우가 많습니다. 클라우드 컴퓨팅 클러스터 및 전문 하드웨어 같은 확장 가능한 인프라가 필요합니다. 이 하드웨어는 테라바이트 또는 페타바이트 규모의 복잡한 모델을 트레이닝하는 데 필요한 복잡한 모델을 테라바이트 또는 페타바이트의 데이터로 훈련하는 데 필요한 수학적 연산을 가속화합니다.

개발자가 모델 학습을 위해 데이터와 상호 작용하는 방법을 설명하기 위해 다음 Python 예제에서 를 로드하고 작은 데이터 세트 하위 집합에 대해 훈련하는 것을 보여줍니다. ultralytics 패키지입니다:

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# COCO8 is a tiny dataset included for quick demonstration
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Display the results object details
print(results)

AI의 실제 적용 사례

빅 데이터는 AI 시스템이 복잡한 현실 세계의 문제를 해결할 수 있도록 지원하여 산업을 혁신합니다:

  • 자율주행 차량: 자율 주행 자동차는 LiDAR, 레이더, 카메라에서 방대한 데이터 스트림을 생성합니다. 다음과 같은 기업 Tesla는 차량 데이터를 활용하여 보행자를 detect 인식 시스템을 훈련시킵니다, 장애물을 감지하는 인식 시스템을 훈련합니다. 이러한 지속적인 데이터 수집과 훈련의 반복은 더욱 안전한 자동차 솔루션의 AI.
  • 의료 진단: In 의료 분야의 AI, 빅 데이터는 익명화된 방대한 익명화된 환자 기록과 의료 영상 라이브러리를 포함합니다. 연구자들은 다음과 같은 리포지토리를 사용하여 NIH 이미징 데이터 커먼즈와 같은 리포지토리를 사용하여 수천 장에 달하는 모델을 훈련합니다. 이러한 모델은 방사선 전문의가 종양과 같은 병리를 더 빠르고 정확하게 식별하는 데 도움을 줍니다. 종양과 같은 병리를 더 빠르고 정확하게 식별하는 데 도움을 줍니다.

빅 데이터 vs. 관련 개념

빅 데이터를 이해하려면 데이터 에코시스템에서 밀접하게 관련된 용어와 구분해야 합니다:

  • 데이터 마이닝: 빅 데이터는 자산 자체를 의미하지만, 데이터 마이닝은 이러한 데이터 세트를 탐색하여 패턴과 관계를 발견하는 과정입니다. Apache Spark 분석 엔진과 같은 도구를 사용해 빅데이터를 효율적으로 마이닝하는 데 사용됩니다.
  • 데이터 레이크: 데이터 레이크는 스토리지 아키텍처로, 원시 데이터를 필요할 때까지 기본 형식으로 보관하도록 설계되었습니다. 이는 빅 데이터와 대조를 이룹니다. 이러한 아키텍처에 저장되는 데이터의 특성(볼륨, 속도 등)을 설명합니다. 최신 솔루션은 종종 Amazon S3 또는 이와 유사한 서비스를 활용하여 이러한 레이크.
  • 데이터 분석: 이것은 결론을 도출하기 위한 결론을 도출하기 위해 데이터를 분석하는 광범위한 분야입니다. 빅 데이터에 적용될 때는 종종 고급 미래 트렌드를 예측하기 위한 예측 모델링 미래 트렌드를 예측하는 고급 예측 모델링을 포함합니다.

빅데이터를 효과적으로 활용하려면 다음과 같은 사항도 엄격하게 준수해야 합니다. 데이터 프라이버시 및 거버넌스에 대한 관심도 필요합니다. 데이터 프라이버시 및 거버넌스에도 관심을 기울여야 합니다. 전 세계 데이터의 양이 계속 증가함에 따라 빅데이터와 AI의 시너지 효과는 의 시너지 효과는 여전히 기술 혁신의 주요 동력이 될 것입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기