YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

데이터 마이닝

데이터 마이닝이 원시 데이터를 실행 가능한 통찰력으로 변환하여 의료, 소매 등에서 AI, ML 및 실제 응용 프로그램을 강화하는 방법을 알아보세요!

데이터 마이닝은 대규모 데이터 세트 내에서 패턴, 상관 관계 및 이상 징후를 발견하여 가치 있고 이전에 알려지지 않은 정보를 추출하는 프로세스입니다. 이는 원시 데이터를 이해 가능한 구조로 변환하는 중요한 탐색 단계 역할을 하며, 종종 예측 모델링머신러닝(ML) 작업의 기반이 됩니다. 통계, 데이터베이스 시스템 및 AI 기술을 활용하여 데이터 마이닝은 비즈니스 전략, 과학 연구 및 기술 혁신에 정보를 제공할 수 있는 숨겨진 통찰력을 밝히는 데 도움이 됩니다.

데이터 마이닝 작동 방식

데이터 마이닝 프로세스는 종종 데이터 마이닝을 위한 교차 산업 표준 프로세스(CRISP-DM)와 같은 프레임워크에 따라 구성됩니다. 일반적인 단계는 다음과 같습니다.

  1. 데이터 수집 및 통합: 구조화된 데이터베이스, 비정형 텍스트 또는 데이터 레이크의 이미지 등 다양한 소스에서 데이터를 수집합니다.
  2. 데이터 전처리: 여기에는 누락되거나 일관성 없는 값을 처리하기 위한 데이터 정리와 분석을 위해 데이터를 정규화하거나 집계하는 데이터 변환이 포함됩니다. 데이터 세트를 풍부하게 하기 위해 이 단계에서 데이터 증강을 사용할 수도 있습니다.
  3. 패턴 발견 및 모델링: 패턴을 식별하기 위해 알고리즘을 적용합니다. 일반적인 작업에는 분류, 클러스터링(K-Means), 회귀 및 연관 규칙 마이닝이 포함됩니다. 이 단계는 ML 알고리즘이 가장 많이 사용되는 단계입니다.
  4. 평가 및 해석: 발견된 패턴의 유효성과 유용성을 평가합니다. 여기서 데이터 시각화는 결과를 이해하기 쉽게 만드는 데 도움이 되는 핵심 도구입니다.
  5. 지식 배포: 발견된 지식을 추천 엔진 또는 사기 탐지 시스템과 같은 운영 시스템에 통합합니다.

실제 AI 및 컴퓨터 비전 애플리케이션

데이터 마이닝은 여러 산업 분야에서 지능형 시스템을 개발하는 데 기본적입니다.

  • 소매 분야의 AI 및 장바구니 분석: 소매업체는 방대한 거래 로그를 마이닝하여 어떤 제품이 함께 자주 구매되는지 파악합니다. 예를 들어 빵을 구매하는 고객이 우유도 자주 구매한다는 사실(연관 규칙)을 발견하면 제품 배치 전략, 프로모션 번들링 및 타겟 광고에 정보를 제공할 수 있습니다. 이러한 고객 행동 분석은 또한 개인화된 추천 시스템을 촉진합니다. AI가 어떻게 소매 효율성을 달성하고 있는지 자세히 알아보십시오.
  • 의료 영상 분석: 의료 AI에서 데이터 마이닝 기술은 뇌종양 데이터 세트와 같은 대규모 의료 기록 및 영상 데이터 세트에 적용됩니다. 이 데이터를 마이닝함으로써 연구자들은 특정 영상 특징 또는 환자 인구 통계를 질병과 연결하는 패턴과 상관 관계를 식별할 수 있습니다. 이는 종양 탐지와 같은 진단 모델을 구축하는 데 도움이 되며 국립 보건원(NIH)과 같은 기관이 의학 발전을 지원하는 데 도움이 됩니다.

데이터 마이닝 vs. 관련 개념

데이터 마이닝을 다른 관련 데이터 과학 용어와 구별하는 것이 중요합니다.

  • 머신 러닝 (ML): 용어가 종종 상호 교환적으로 사용되지만 구별됩니다. 데이터 마이닝은 데이터에서 지식 발견의 더 광범위한 프로세스입니다. 머신 러닝은 패턴을 찾기 위해 데이터 마이닝 프로세스 내에서 자주 사용되는 기술 및 알고리즘 모음입니다(예: 지도 학습, 비지도 학습). 본질적으로 ML은 데이터 마이닝의 목표를 달성하기 위한 도구입니다.
  • 데이터 분석: 데이터 분석은 결론을 도출하고 의사 결정을 지원하기 위해 데이터 세트를 검사하는 데 중점을 둔 더 넓은 분야입니다. 데이터 마이닝은 이전에 알려지지 않은 패턴을 발견하는 데 중점을 둔 데이터 분석의 특정 하위 집합인 반면, 데이터 분석은 미리 정의된 가설을 테스트하고 요약 보고서를 작성하는 데에도 관여할 수 있습니다.
  • 빅 데이터(Big Data): 이 용어는 방대하고 복잡하며 빠르게 증가하는 데이터 세트 자체를 의미합니다. 데이터 마이닝은 빅 데이터에서 가치를 추출하기 위해 적용되는 프로세스입니다. 빅 데이터의 과제(규모, 속도, 다양성)는 종종 Apache Hadoop 생태계와 같은 특수 데이터 마이닝 도구를 필요로 합니다.
  • 딥러닝 (DL): 이는 여러 계층으로 구성된 신경망을 사용하는 머신러닝의 특수한 하위 분야입니다. Ultralytics YOLO에 사용된 것과 같은 DL 모델은 이미지와 같은 원시 데이터에서 자동으로 특징 추출을 수행할 수 있으며, 이는 컴퓨터 비전 (CV)을 위한 데이터 마이닝 워크플로우 내에서 강력한 기능입니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트 관리부터 모델 학습에 이르기까지 전체 프로세스를 간소화합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.