기능 엔지니어링을위한 학습서


19

모두에게 알려진 바와 같이, 피처 엔지니어링은 기계 학습에 매우 중요하지만이 분야와 관련된 자료는 거의 없습니다. 나는 Kaggle 에서 여러 경쟁에 참여했으며 경우에 따라 좋은 분류 기가 좋은 분류기보다 더 중요하다고 생각합니다. 누구나 기능 엔지니어링에 대한 자습서를 알고 있습니까, 아니면이 순수한 경험입니까?


1
기능의 사전 처리 (정규화 및 기타 변환) 또는 기능 선택을 의미합니까?
MattBagg

2
@ mb3041023 아니요, 두 단계 이전의 단계로, 텍스트, 이미지 또는 시리즈와 같은 일부 원시 데이터를 사용 가능한 속성으로 변환합니다.

8
내 경험상 기계 학습 문제의 큰 부분은 말 그대로 해결 / 최적화 할 올바른 문제 (예 : 기능, 기능 표현, 선택 등)를 설정하는 것입니다. 나는 실용적 기능 선택과 많은 실제 그림 (kaggle과 같은)으로 전처리하는 책을 순전히보고 싶습니다. 누군가 하나를 알고 있다면, pls. 우편. 데이터 정리 / 데이터 전가와 같은 내용을 다루는 여러 권의 책이 있지만 기능 선택에 대한 실용적인 실제 텍스트가 절실히 필요합니다.

2
"특징 추출 : 기초 및 응용 프로그램", 2006
jasonb

2
@jasonb, 저자, 크기, 가격 및 링크, 이런 일에 대해 어떻게 : 귀용은, 특징 추출 에드 :. 기초 및 응용 프로그램 2006, 778p, $ (306)
데니스

답변:


7

나는 경험을 말할 것입니다-기본 아이디어는 다음과 같습니다

  • 분류기의 작동 방식에 적합합니다. 트리에 지오메트리 문제, kNN에 대한 대형 치수 및 SVM에 대한 간격 데이터를 제공하는 것은 좋은 생각이 아닙니다.
  • 가능한 한 많은 비선형 성을 제거하십시오. 일부 분류자가 내부에서 푸리에 분석을 수행 할 것으로 기대하는 것은 다소 순진합니다 (심지어 복잡성을 낭비하더라도)
  • 체인의 일부 샘플링으로 인해 녹아웃되지 않도록 모든 객체에 공통적 인 기능을 만듭니다.
  • 이전 작품 확인-시각화 또는 유사한 유형의 데이터를 테스트하는 데 사용되는 변환은 이미 흥미로운 측면을 발견하도록 조정되었습니다.
  • 과적 합을 초래할 수있는 PCA와 같은 불안정하고 최적화 된 변환을 피하십시오
  • 많이 실험하다

"간격 데이터"를 어떻게 정의합니까? Google에서 검색하여 다양한 정의를 찾았습니다.

PCA 포인트를 자세히 설명 할 수 있습니까?
Daniel Velkov

@power 예를 들어, 와 결정 과 같이 설정됩니다. 즉, 속성을 간단한 연속 변환에 두지 않고 여러 간격으로 분할해야하는 경우입니다. | x 가장 가까운 소수 | < 0.3x|xnearest prime|<0.3

@DanielVelkov 다소 시끄러운 데이터에서 PCA를 부트 스트랩 할 때 구성 요소가 종종 불안정합니다. 이를 통해 전체 가용 세트에서 하나의 글로벌 PCA를 만들 겠다는 아이디어를 얻습니다. 정보 유출 및 평가를 망칠 수있는 직접적인 방법입니다.

@mbq PCA가 훈련 세트에서만 실행된다면, 어떻게해야합니까?
Daniel Velkov

1

Zheng et al.의 " 기계 공학을위한 기능 엔지니어링 "이라는 O'Reilly의 책이 있습니다 .

이 책을 읽고 다양한 유형의 데이터 (예 : 범주 형, 텍스트 ...)를 다루고 기능 엔지니어링의 다양한 측면에 대해 설명합니다. 여기에는 데이터 정규화, 기능 선택, 텍스트의 tf-idf 등이 포함됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.