용어집

데이터 마이닝

데이터 마이닝이 어떻게 원시 데이터를 실행 가능한 인사이트로 변환하여 의료, 소매업 등의 분야에서 AI, ML 및 실제 애플리케이션을 지원하는지 알아보세요!

데이터 마이닝은 대규모 데이터 세트 내에서 패턴, 상관관계, 이상 징후를 발견하여 이전에 알려지지 않은 가치 있는 정보를 추출하는 프로세스입니다. 원시 데이터를 이해하기 쉬운 구조로 변환하는 중요한 탐색 단계로, 예측 모델링머신 러닝(ML) 작업의 기초가 되는 경우가 많습니다. 데이터 마이닝은 통계, 데이터베이스 시스템 및 AI의 기술을 활용하여 비즈니스 전략, 과학 연구 및 기술 혁신에 정보를 제공할 수 있는 숨겨진 인사이트를 발견하는 데 도움이 됩니다.

데이터 마이닝의 작동 방식

데이터 마이닝 프로세스는 데이터 마이닝을 위한 산업 간 표준 프로세스(CRISP-DM)와 같은 프레임워크에 따라 구조화되는 경우가 많습니다. 일반적인 단계는 다음과 같습니다:

  1. 데이터 수집 및 통합: 정형 데이터베이스, 비정형 텍스트, 데이터 레이크의 이미지 등 다양한 소스에서 데이터를 수집합니다.
  2. 데이터 전처리: 여기에는 누락되거나 일관되지 않은 값을 처리하기 위한 데이터 정리와 분석을 위해 데이터를 정규화하거나 집계하기 위한 데이터 변환이 포함됩니다. 이 단계에서 데이터 증강을 사용하여 데이터 집합을 보강할 수도 있습니다.
  3. 패턴 발견 및 모델링: 알고리즘을 적용하여 패턴을 식별하는 작업입니다. 일반적인 작업에는 분류, 클러스터링(K-Means), 회귀 및 연관 규칙 마이닝이 포함됩니다. 이 단계는 ML 알고리즘이 가장 많이 사용되는 단계입니다.
  4. 평가 및 해석: 발견된 패턴의 유효성과 유용성을 평가하는 단계입니다. 데이터 시각화는 여기서 핵심적인 도구로, 조사 결과를 이해하기 쉽게 만드는 데 도움이 됩니다.
  5. 지식 배포: 발견된 지식을 추천 엔진이나 사기 탐지 시스템과 같은 운영 시스템에 통합하는 단계입니다.

실제 AI 및 컴퓨터 비전 애플리케이션

데이터 마이닝은 여러 산업 분야에서 지능형 시스템을 개발하는 데 필수적인 요소입니다.

  • 리테일 및 마켓 바스켓 분석의AI: 소매업체는 방대한 거래 로그를 마이닝하여 어떤 제품을 자주 함께 구매하는지 파악합니다. 예를 들어, 빵을 구매하는 고객이 우유도 자주 구매한다는 사실(연관성 규칙)을 발견하면 제품 배치 전략, 프로모션 번들링, 타겟 광고에 정보를 제공할 수 있습니다. 이러한 고객 행동 분석은 개인화된 추천 시스템의 원동력이 되기도 합니다. AI가 소매업의 효율성을 높이는 방법에 대해 자세히 알아보세요.
  • 의료 영상 분석: 의료 분야의 AI에서는 뇌종양 데이터 세트와 같은 대규모 의료 기록과 이미지 데이터 세트에 데이터 마이닝 기법을 적용합니다. 연구자들은 이 데이터를 마이닝하여 특정 이미지 특징이나 환자 인구통계를 질병과 연관시키는 패턴과 상관관계를 파악할 수 있습니다. 이는 종양 발견과 같은 진단 모델을 구축하는 데 도움이 되며, 국립보건원(NIH) 과 같은 기관의 의료 과학 발전을 지원합니다.

데이터 마이닝과 관련 개념

데이터 마이닝을 다른 관련 데이터 과학 용어와 구별하는 것이 중요합니다.

  • 머신러닝(ML): 이 두 용어는 종종 같은 의미로 사용되지만, 엄연히 구분됩니다. 데이터 마이닝은 데이터에서 지식을 발견하는 보다 광범위한 프로세스입니다. 머신 러닝은 데이터 마이닝 프로세스 내에서 패턴을 찾기 위해 자주 사용되는 기술과 알고리즘(예: 지도 학습, 비지도 학습)의 모음입니다. 본질적으로 ML은 데이터 마이닝의 목표를 달성하기 위한 도구입니다.
  • 데이터 분석: 데이터 분석은 결론을 도출하고 의사 결정을 지원하기 위해 데이터 세트를 조사하는 데 중점을 둔 더 넓은 분야입니다. 데이터 마이닝은 이전에 알려지지 않은 패턴을 발견하는 데 중점을 두는 데이터 분석의 특정 하위 집합이며, 데이터 분석에는 미리 정의된 가설을 테스트하고 요약 보고서를 작성하는 작업도 포함될 수 있습니다.
  • 빅 데이터: 이 용어는 방대하고 복잡하며 빠르게 증가하는 데이터 세트 자체를 의미합니다. 데이터 마이닝은 빅데이터에서 가치를 추출하기 위해 빅데이터에 적용되는 프로세스입니다. 빅데이터의 과제(양, 속도, 다양성)는 종종 Apache Hadoop 에코시스템과 같은 전문 데이터 마이닝 도구를 필요로 합니다.
  • 딥러닝(DL): 여러 계층으로 구성된 신경망을 사용하는 머신 러닝의 전문 하위 분야입니다. Ultralytics YOLO에 사용되는 것과 같은 DL 모델은 이미지와 같은 원시 데이터에서 자동으로 특징 추출을 수행할 수 있으며, 이는 컴퓨터 비전(CV)을 위한 데이터 마이닝 워크플로우 내에서 강력한 기능입니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트 관리부터 모델 훈련까지 전체 프로세스를 간소화합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨