YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

특성 엔지니어링

전문가의 특징 엔지니어링으로 머신러닝 정확도를 향상시키세요. 영향력 있는 특징을 생성, 변환 및 선택하는 기술을 배우세요.

특성 엔지니어링은 도메인 지식을 사용하여 원시 데이터를 선택, 생성 및 변환하여 예측 모델에 대한 기본 문제를 더 잘 나타내는 특성으로 만드는 프로세스입니다. 이는 머신 러닝(ML) 파이프라인에서 중요하고 종종 시간이 많이 걸리는 단계입니다. 특성의 품질이 결과 모델의 성능과 정확도에 직접적인 영향을 미치기 때문입니다. 효과적인 특성 엔지니어링은 평범한 모델과 매우 정확한 모델의 차이가 될 수 있으며 종종 다른 알고리즘을 선택하거나 광범위한 하이퍼파라미터 튜닝보다 더 중요한 성능 향상을 가져옵니다.

## 특징 엔지니어링 프로세스

특성 엔지니어링은 도메인 전문 지식과 수학적 기술을 혼합한 예술이자 과학입니다. 이 프로세스는 여러 가지 일반적인 활동으로 나눌 수 있으며, scikit-learn의 전처리 모듈 또는 자동 특성 엔지니어링을 위한 특수 도구를 사용하여 관리되는 경우가 많습니다.

  • 특성 생성: 기존 특성에서 새로운 특성을 만드는 것을 의미합니다. 예를 들어, 소매 데이터 세트에서 "구매 날짜"에서 "고객 시작일"을 빼서 "고객 충성도 기간" 특성을 만들 수 있습니다. 시계열 분석에서는 타임스탬프에서 이동 평균 또는 계절성과 같은 특성을 파생시킬 수 있습니다.
  • 변환: 원시 데이터는 종종 기계 학습 알고리즘의 가정을 충족하기 위해 변환되어야 합니다. 여기에는 숫자 기능 크기 조정, 치우친 데이터를 처리하기 위해 로그 변환 적용 또는 숫자를 범주로 그룹화하기 위해 binning과 같은 기술 사용이 포함됩니다.
  • 인코딩: 많은 ML 모델은 범주형 데이터를 직접 처리할 수 없습니다. 인코딩은 텍스트 기반 범주를 숫자 표현으로 변환하는 것을 포함합니다. 일반적인 방법으로는 각 범주 값을 새로운 이진 열로 변환하는 원-핫 인코딩과 레이블 인코딩이 있습니다.
  • 특성 선택: 모든 특성이 유용한 것은 아닙니다. 일부는 중복되거나 관련이 없을 수 있으며, 과적합을 유발할 수 있는 노이즈를 유발할 수 있습니다. 특성 선택은 모델 성능을 개선하고 계산 비용을 줄이기 위해 가장 관련성이 높은 특성의 하위 집합을 선택하는 것을 목표로 합니다.

## 실제 적용 사례

특성 엔지니어링의 영향은 여러 산업 분야에서 분명하게 드러납니다. 그 효과는 예측 신호를 실제로 포착하는 특성을 생성하기 위한 심층적인 도메인 지식에 달려 있습니다.

  1. 신용 점수 평가: 금융에서 원시 고객 데이터에는 소득, 연령 및 대출 기록이 포함될 수 있습니다. 특징 엔지니어는 "부채-소득 비율"(총 소득으로 총 부채를 나눔) 또는 "신용 활용률"(신용 카드 한도로 신용 카드 잔액을 나눔)과 같은 새로운 변수를 만들 수 있습니다. 이러한 엔지니어링된 특징은 원시 숫자보다 개인의 재정 상태에 대한 훨씬 더 명확한 신호를 제공하여 더 정확한 신용 위험 모델로 이어집니다.
  2. 예측 유지보수: 제조에서 기계의 센서는 진동, 온도 및 회전 속도와 같은 방대한 원시 데이터 스트림을 생성합니다. 고장을 예측하기 위해 엔지니어는 "지난 24시간 동안의 온도 이동 평균" 또는 "진동의 표준 편차"와 같은 특징을 만들 수 있습니다. 이러한 특징은 기계적 고장 전에 발생하는 미묘한 열화 패턴을 드러내어 사전 예방적 유지보수를 가능하게 하고 비용이 많이 드는 가동 중지 시간을 방지할 수 있습니다.

## 특징 엔지니어링 vs. 관련 개념

AI 및 데이터 과학에서 특성 엔지니어링을 관련 용어와 구별하는 것이 중요합니다.

  • 특성 엔지니어링 vs. 특성 추출: 특성 엔지니어링은 직관과 전문 지식을 기반으로 새로운 특성을 만드는 주로 수동적인 프로세스입니다. 특성 추출은 일반적으로 데이터를 축소된 특성 세트로 변환하는 자동화된 프로세스입니다. 딥러닝에서 CNN(Convolutional Neural Networks)와 같은 모델은 인간의 개입 없이 원시 픽셀 데이터에서 계층적 특성(엣지, 텍스처, 모양)을 학습하여 자동으로 특성 추출을 수행합니다.
  • 특성 엔지니어링 vs. 임베딩: 임베딩은 NLP 및 컴퓨터 비전에서 흔히 사용되는 정교하고 학습된 형태의 특성 표현입니다. 수동으로 특성을 만드는 대신 모델은 단어 또는 이미지와 같은 항목의 의미론적 의미를 캡처하는 조밀한 벡터를 학습합니다. 따라서 임베딩은 수동 엔지니어링이 아닌 자동화된 특성 학습의 결과입니다.
  • 특성 엔지니어링 vs. 데이터 전처리: 데이터 전처리는 특성 엔지니어링을 주요 단계 중 하나로 포함하는 더 광범위한 범주입니다. 또한 데이터 클리닝(결측값 및 이상값 처리) 및 학습을 위한 데이터 세트 준비와 같은 다른 필수 작업도 포함합니다.

Ultralytics YOLO 모델의 아키텍처와 같은 최신 아키텍처는 객체 감지인스턴스 세분화와 같은 이미지 기반 작업에 대한 특징 추출을 자동화하지만, 특징 엔지니어링의 원칙은 여전히 기본적입니다. 데이터를 효과적으로 표현하는 방법을 이해하는 것은 모델 디버깅, 데이터 품질 개선, 시각적 데이터와 구조화된 데이터를 결합하는 복잡한 문제를 해결하는 데 매우 중요합니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트 준비부터 모델 배포에 이르기까지 전체 수명 주기를 관리하는 도구를 제공합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.