주성분 분석을 사용하여 회귀 변수를 선택하는 방법은 무엇입니까?


12

현재 주성분 분석을 사용하여 모델링에 사용할 변수를 선택하고 있습니다. 현재 실험에서 A, B 및 C를 측정합니다. 정말로 알고 싶은 것은 : 시간과 노력을 절약하기 위해 더 적은 측정을하고 C 및 / 또는 B 기록을 중단 할 수 있습니까?

내 데이터의 분산의 60 %를 차지하는 첫 번째 주요 구성 요소에 3 개의 변수가 모두 많이로드됩니다. 구성 요소 점수는 이러한 변수를 특정 비율 (aA + bB + cC)로 함께 추가하면 나에게 알려줍니다. 내 데이터 세트의 각 사례에 대해 PC1에서 점수를 얻을 수 있으며이 점수를 모델링의 변수로 사용할 수는 있지만 B 및 C 측정을 중지 할 수는 없습니다.

PC1에서 A와 B 및 C의 부하를 제곱하면 변수 A가 PC1의 분산의 65 %를 차지하고 변수 B가 PC1의 분산의 50 %를 차지하고 변수 C도 50 %를 차지한다는 것을 알 수 있습니다. 각 변수 A에 의해 계산 된 PC1의 분산 중 A, B 및 C는 다른 변수와 공유되지만 A가 약간 더 많이 계산됩니다.

이 변수는 PC1의 분산의 많은 부분을 설명하고 차례로 분산의 많은 부분을 설명하기 때문에 모델링에 사용할 변수 A 또는 가능하면 (필요한 경우 aA + bB)를 선택할 수 있다고 생각하는 것이 잘못 되었습니까? 자료?

과거에 어떤 접근법을 사용 했습니까?

  • 다른 대형 로더가 있어도 PC1에 가장 많이로드되는 단일 변수?
  • 모든 변수가 모두 무거운 로더 인 경우에도 모든 변수를 사용하는 PC1의 구성 요소 점수?

답변:


14

ABCW

XYZβ1ϵβW=ZXYZ

A=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCXYCABWAB

이 예제는 회귀 분석을 위해 독립 변수가 종속 변수와 어떻게 관련되는지주의를 기울이고 자 함을 보여줍니다. 독립 변수 간의 관계를 분석하는 것만으로는 벗어날 수 없습니다.


1
A=X+ϵYZ+ϵY

@shabby 예, 감사합니다. (나는 OP의 이름과 일치하도록 초안의 모든 변수 이름을 변경하고 이것을 엉망으로
만들었

4

IV가 3 개인 경우 왜 IV를 줄이려고합니까?

즉, 표본이 매우 작습니까 (3 IV가 과적 합의 위험이 있습니까)? 이 경우 부분 최소 제곱을 고려하십시오.

아니면 측정 비용이 매우 비쌉니까 (나중에 하나의 IV 만 측정하겠습니까)? 이 경우, 각 IV에 대해 개별적으로 그리고 함께 다른 회귀 분석을 고려할 것입니다.

아니면 과거의 누군가가 parsimony의 가치를 지나치게 강조했습니까? 이 경우 왜 IV 3 개를 모두 포함하지 않습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.