현재 주성분 분석을 사용하여 모델링에 사용할 변수를 선택하고 있습니다. 현재 실험에서 A, B 및 C를 측정합니다. 정말로 알고 싶은 것은 : 시간과 노력을 절약하기 위해 더 적은 측정을하고 C 및 / 또는 B 기록을 중단 할 수 있습니까?
내 데이터의 분산의 60 %를 차지하는 첫 번째 주요 구성 요소에 3 개의 변수가 모두 많이로드됩니다. 구성 요소 점수는 이러한 변수를 특정 비율 (aA + bB + cC)로 함께 추가하면 나에게 알려줍니다. 내 데이터 세트의 각 사례에 대해 PC1에서 점수를 얻을 수 있으며이 점수를 모델링의 변수로 사용할 수는 있지만 B 및 C 측정을 중지 할 수는 없습니다.
PC1에서 A와 B 및 C의 부하를 제곱하면 변수 A가 PC1의 분산의 65 %를 차지하고 변수 B가 PC1의 분산의 50 %를 차지하고 변수 C도 50 %를 차지한다는 것을 알 수 있습니다. 각 변수 A에 의해 계산 된 PC1의 분산 중 A, B 및 C는 다른 변수와 공유되지만 A가 약간 더 많이 계산됩니다.
이 변수는 PC1의 분산의 많은 부분을 설명하고 차례로 분산의 많은 부분을 설명하기 때문에 모델링에 사용할 변수 A 또는 가능하면 (필요한 경우 aA + bB)를 선택할 수 있다고 생각하는 것이 잘못 되었습니까? 자료?
과거에 어떤 접근법을 사용 했습니까?
- 다른 대형 로더가 있어도 PC1에 가장 많이로드되는 단일 변수?
- 모든 변수가 모두 무거운 로더 인 경우에도 모든 변수를 사용하는 PC1의 구성 요소 점수?