답변:
피처 선택 도구로 PCA를 사용할 때의 기본 아이디어는 계수 ( 부하 ) 의 크기 (절대 값에서 최대 값에서 최소값까지)에 따라 변수를 선택하는 것 입니다. PCA가 (상관 관계가있는) 변수를 원래 변수의 k < p 상관 관계가없는 선형 조합 (프로젝션)으로 바꾸려고한다는 것을 기억할 것입니다 . 당면한 문제에 대해 최적의 k 를 선택하는 방법을 무시합시다 . 이러한 K 개의 주요 구성 요소는 자신의 설명을 통해 분산 중요성에 의해 평가하고, 각각의 변수는 각 구성 요소도 변화에 기여한다. 가장 큰 분산 기준을 사용하는 것은 특징 추출 과 유사합니다. 여기서 주성분은 원래 변수 대신 새로운 기능으로 사용됩니다. 그러나 첫 번째 성분 만 유지하고 절대 계수가 가장 높은 변수를 선택할 수 있습니다. 숫자 j 는 변수 수의 비율 (예를 들어, p 변수 의 상위 10 % 만 유지 ) 또는 고정 컷오프 (예를 들어, 정규화 된 계수에 대한 임계 값을 고려)에 기초 할 수있다. 이 접근법 은 벌점 회귀 (또는 PLS 회귀) 에서 올가미 연산자 와 유사합니다 . j 의 값 이나 보유 할 구성 요소의 수는 분명한 선택이 아닙니다.
PCA 사용의 문제점은 (1) 모든 원래 변수로부터의 측정이 낮은 차원 공간으로의 투영에 사용되며, (2) 선형 관계 만 고려되고, (3) PCA 또는 SVD 기반 방법도 고려된다는 것입니다 단 변량 스크리닝 방법 (t- 검정, 상관 관계 등)으로서 데이터 구조의 잠재적 인 다변량 특성 (예 : 변수 간 고차 상호 작용)을 고려하지 않습니다.
포인트 1에 대해,보다 정교한 선별 방법, 예를 들어 유전자 발현 연구에서 ' 유전자 면도 '에 사용 된 것과 같은 주요 특징 분석 또는 단계적 방법 이 제안되었다 . 또한 스파 스 PCA를 사용하여 결과 변수로드를 기반으로 치수 축소 및 변수 선택을 수행 할 수 있습니다. 포인트 2에 대해, 비선형 관계를 낮은 차원 공간에 포함 해야하는 경우 커널 PCA ( 커널 트릭 사용)를 사용할 수 있습니다. 의사 결정 트리 또는 랜덤 포레스트 알고리즘이 개선되면 포인트 3을 더 잘 해결할 수 있습니다. 후자는 가변 중요성 의 Gini 또는 순열 기반 측정 값을 도출 할 수 있습니다 .
마지막 요점 : 분류 또는 회귀 모델을 적용하기 전에 기능 선택을 수행하려는 경우 전체 프로세스를 교차 검증해야합니다 ( 통계 학습 요소 §7.10.2 또는 Ambroise and McLachlan, 2002 참조 ).
R 솔루션에 관심이있는 것처럼 분류 또는 회귀 컨텍스트에서 데이터 사전 처리 및 변수 선택을위한 많은 편리한 기능을 포함하는 캐럿 패키지를 살펴 보는 것이 좋습니다 .
N 개의 피처 집합이 주어지면 PCA 분석은 (1) 가장 큰 분산을 갖는 피처의 선형 조합 (첫 번째 PCA 구성 요소), (2) 첫 번째 PCA 구성 요소 등과 직교하는 부분 공간에서 가장 큰 분산을 갖는 선형 조합을 생성합니다. (조합의 계수가 단위 규범을 가진 벡터를 형성한다는 제약 조건 하에서) 최대 분산을 갖는 선형 조합이 "양호한"기능인지 여부는 실제로 예측하려는 대상에 따라 다릅니다. 이러한 이유로 저는 PCA 구성 요소가되고 "좋은"기능은 일반적으로 두 가지 관련이없는 개념이라고 말합니다.
PCA에 사용 된 분산은 기본적으로 다차원 엔터티이므로 분산에 따라 피처를 주문할 수 없습니다. 선택한 특정 방향으로 분산을 투영하여 형상을 주문할 수 있습니다 (일반적으로 첫 번째 주요 구성 요소 임). 즉, 형상이 다른 형상보다 분산이 더 큰지 여부는 투영 방향을 선택하는 방법에 따라 다릅니다.