Yolo 비전 선전
선전
지금 참여하기
용어집

특성 엔지니어링

전문가의 특징 엔지니어링으로 머신러닝 정확도를 향상시키세요. 영향력 있는 특징을 생성, 변환 및 선택하는 기술을 배우세요.

피처 엔지니어링은 도메인 지식을 활용하여 원시 데이터를 예측 모델을 위해 근본적인 문제를 더 효과적으로 나타내는 유용한 속성으로 변환하여 예측 모델에 보다 효과적으로 활용할 수 있도록 하는 기술입니다. 더 넓은 범위의 머신 러닝(ML)의 경우, 원시 데이터는 즉각적인 처리를 위해 노이즈, 누락된 값 또는 알고리즘이 직접 해석할 수 없는 형식이 포함되어 있는 경우가 많습니다. 포함되는 경우가 많습니다. 엔지니어는 새로운 기능을 만들거나 기존 기능을 수정함으로써 모델 정확도와 성능을 크게 향상시킬 수 있습니다. 모델 정확도와 성능을 크게 향상시킬 수 있으며, 종종 더 복잡한 더 나은 결과를 얻을 수 있습니다. 이 프로세스는 수집된 원시 정보와 수학적 표현 사이의 수집된 원시 정보와 예측 모델링에 필요한 수학적 표현 사이의 예측 모델링.

피처 엔지니어링의 핵심 기술

이 프로세스에는 일반적으로 데이터에서 가장 관련성이 높은 신호를 노출하도록 설계된 여러 반복 단계가 포함됩니다. 하지만 같은 도구는 이러한 조작을 용이하게 하지만 전략은 특정 문제 영역을 이해하는 데 크게 의존합니다.

  • 추론 및 정리: 새로운 기능을 만들기 전에 데이터를 안정화해야 합니다. 여기에는 다음이 포함됩니다. 누락된 값 처리 데이터 정리 기법을 통해 결측치를 처리하는 것이 포함됩니다. 평균, 중앙값 또는 예측 값으로 간격을 메우는 등의 데이터 정리 기법을 통해 누락된 값을 처리해야 합니다. 대입.
  • 변환 및 스케일링: 많은 알고리즘은 입력 변수의 스케일이 크게 다를 때 성능이 저하됩니다. 성능이 떨어지는 경우가 많습니다. 다음과 같은 기술 정규화 (데이터를 0에서 1 범위로 스케일링) 또는 표준화(평균을 중심으로 데이터의 중심을 잡는 것)와 같은 기술을 사용하면 단일 기능이 학습 프로세스를 지배하지 않고 순전히 그 크기 때문에.
  • 범주형 데이터 인코딩: 모델에는 일반적으로 숫자 입력이 필요합니다. 피처 엔지니어링에는 다음이 포함됩니다. 텍스트 레이블 또는 범주형 데이터를 숫자로 변환하는 작업이 포함됩니다. 일반적인 방법으로는 레이블 인코딩과 각 카테고리에 대해 이진 열을 생성하는 원핫 인코딩이 있습니다.
  • 기능 구성: 새로운 변수가 도출되는 창의적인 측면입니다. 예를 들어 부동산 데이터 집합에서 엔지니어는 '길이'와 '너비'를 개별적으로 사용하는 대신에 이 둘을 곱하여 가격과 더 밀접한 상관관계가 있는 '평방 피트' 피처를 만들 수 있습니다.
  • 기능 선택: 너무 많은 기능을 추가하면 다음과 같은 문제가 발생할 수 있습니다. 과적합(모델이 노이즈를 암기하는 현상)이 발생할 수 있습니다. 재귀적 특징 제거 또는 차원 축소와 같은 기술을 사용하면 가장 영향력 있는 속성만 유지합니다.

컴퓨터 비전의 기능 엔지니어링

컴퓨터 비전(CV) 분야에서 기능 엔지니어링은 종종 데이터 증강. 최신 딥러닝 모델이 계층 구조와 패턴을 자동으로 학습하지만, 다양한 환경 조건을 시뮬레이션하여 다양한 환경 조건을 시뮬레이션하여 학습 데이터를 더 강력하게 '엔지니어링'할 수 있습니다. 수정 하이퍼파라미터 튜닝 구성을 수정하여 기하학적 변환을 포함하도록 하이퍼파라미터 조정 구성을 수정하면 모델이 방향이나 원근에 변하지 않는 특징을 학습할 수 있습니다.

다음 코드 스니펫은 훈련 중에 증강 기반 기능 엔지니어링을 적용하는 방법을 보여줍니다. YOLO11 모델을 사용합니다. 다음과 같은 인수를 조정하여 degreesshear를 사용하여 원본 데이터 세트에서 새로운 기능 변형을 합성합니다.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentation hyperparameters acting as on-the-fly feature engineering
# 'degrees' rotates images +/- 10 deg, 'shear' changes perspective
model.train(data="coco8.yaml", epochs=3, degrees=10.0, shear=2.5)

실제 애플리케이션

피처 엔지니어링의 가치는 다양한 산업 분야에서 실제 적용을 통해 가장 잘 이해할 수 있습니다.

  1. 재무 위험 평가: 금융 부문에서는 원시 거래 로그만으로는 신용도를 평가하기에는 충분하지 않습니다. 전문가들은 금융 분야의 AI 을 사용하여 "소득 대비 부채 비율" 또는 "신용 활용률"과 같은 비율을 구성합니다. 이렇게 설계된 재무 건전성에 대한 직접적인 신호를 제공하여 원시 데이터를 사용하는 것보다 더 정확한 신용 위험 모델링이 가능합니다. 보다 정확한 신용 위험 모델링을 가능하게 합니다.
  2. 제조 분야의 예측 유지보수: In 제조 분야의 AI에서 센서는 진동과 온도에 대한 진동과 온도에 대한 고주파 데이터를 수집합니다. 원시 센서 판독값을 모델에 직접 입력하는 것은 종종 노이즈가 많고 비효율적인 경우가 많습니다. 대신 엔지니어는 시계열 분석을 사용하여 다음과 같은 기능을 만듭니다. "지난 1시간 동안의 롤링 평균 온도" 또는 "진동 표준 편차"와 같은 기능을 생성합니다. 이러한 집계된 기능은 기계 마모를 나타내는 추세와 이상 징후를 즉각적인 값보다 훨씬 더 잘 포착합니다. 값보다 훨씬 더 잘 포착합니다.

관련 용어와의 차이점

워크플로 논의에서 혼동을 피하기 위해 기능 엔지니어링과 유사한 개념을 구분하는 것이 도움이 됩니다.

  • 특징 엔지니어링과 특징 추출: 종종 같은 의미로 사용되지만 미묘한 차이가 있습니다. 피처 엔지니어링은 도메인 지식을 기반으로 새로운 입력을 구성하는 수동적이고 창의적인 프로세스를 의미합니다. 도메인 지식. 이와는 대조적으로 특징 추출은 종종 자동화된 방법 또는 수학적 예측(예: PCA)을 통해 고차원 데이터를 밀도 높은 표현으로 추출하는 것을 의미합니다. 딥러닝에서는 딥 러닝(DL), 레이어 컨볼루션 신경망(CNN) 의 레이어는 가장자리와 텍스처에 대한 필터를 학습하여 자동화된 특징 추출을 수행합니다.
  • 피처 엔지니어링 대 임베딩: 현대의 자연어 처리(NLP)에서 수동 피처 생성(예: 단어 빈도 계산)은 대부분 임베딩으로 대체되었습니다. 임베딩은 모델 자체에서 학습한 고밀도 벡터 모델 자체에서 의미적 의미를 포착하기 위해 학습한 고밀도 벡터 표현입니다. 임베딩은 피처의 한 형태이지만, 임베딩은 다음을 통해 학습됩니다. 자동화된 머신 러닝(AutoML) 프로세스를 통해 학습되며, 수작업으로 명시적으로 '엔지니어링'되지 않습니다.

피처 엔지니어링을 마스터하면 개발자는 더 정확할 뿐만 아니라 더 효율적인 모델을 구축할 수 있습니다, 더 적은 컴퓨팅 파워로도 고성능을 달성할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기