PCA / FA에서 유지되는 여러 주요 구성 요소 또는 요소에서 단일 색인 작성

PCA (Principal Component Analysis)를 사용하여 연구에 필요한 색인을 만듭니다. 내 질문은 PCA를 통해 계산 된 유지 주요 구성 요소를 사용하여 단일 인덱스를 작성하는 방법입니다.

예를 들어 PCA를 사용한 후 3 가지 주요 구성 요소를 유지하기로 결정했으며이 3 가지 주요 구성 요소에 대한 점수를 계산했습니다. 각 응답자에 대해이 3 점 만점에 단일 지수를 작성하는 적절한 방법은 무엇입니까?

3 개의 계산 된 점수를 더하여 합성 값을 갖는 것이 관련이 있습니까?
또는 3 점을 평균하여 그러한 가치를 갖습니까?
아니면 첫 번째 주요 구성 요소 (가장 강한 것) 만 유지하고 점수를 색인으로 사용해야합니까?

또는 요인 분석 (FA)을 사용할 수도 있지만 동일한 요인이 남아 있습니다. 여러 요인 점수를 기반으로 단일 지수를 만드는 방법은 무엇입니까?

— 사용자 179313
소스

PC는 정의에 의해 서로 관련이 없습니다. 따라서 변수로서 서로의 정보를 어떤 식으로도 복제하지 않습니다. 즉, 단일 값 (복합 변수)을 작성할 이유가 없습니다. 또는 때때로 곱하면 관심을 가질 수 있지만 아마도 합산되거나 평균화되지는 않을 것입니다.

— ttnphns

@ttnphns에 동의합니다. 처음 두 가지 옵션은 의미가 없으며 세 PC를 하나의 인덱스로 "결합"하려는 모든 노력은 잘못된 것 같습니다. 첫 번째 PC를 색인으로 사용하거나 다른 접근법을 모두 사용하십시오.

— 아메바는 모니카 모의원을 말한다

@ttnphns는 서로 관련이 없으며 독립적이지 않습니다. PC 전체에 중복 정보가 반복적으로 표시 될 수 있습니다.

— 추측 8

@amoeba 알림 주셔서 감사합니다. stats.stackexchange.com/tags/valuation/info 에서 태그 및 해당 인용 버전을 작성 했습니다 .

— whuber

@ttnphns 위의 의견을 바탕으로 여기에 답변을 게시 하시겠습니까? 나는이 질문의 변형이 계속 나타나고 현상금을 시작했으며 어디에서나 만족스러운 답변이 없기 때문에 중복으로 닫을 수 없습니다.

— 아메바는

답변:

이 답변은 의도적으로 비 수학적이며 각 통계에 대한 "복합 지수"점수를 얻기 위해 다른 요인의 요인 점수를 합산 / 평균화 할 수 있는지를 묻는 비 통계 심리학자 (예 : 통계 학자)를 대상으로합니다.

일부 변수의 점수를 합산하거나 평균화 하면 변수가 동일한 차원에 속하고 실행 가능한 척도 인 것으로 가정합니다. (질문에서 "변수"는 구성 요소 또는 요인 점수 이며 변수의 예이므로 항목을 변경하지 않습니다.

실제로 (그림 1) 응답자 1과 2는 동일한 평균 점수 및 . 값 은 및 에 대한 구문 만큼 완벽하게 구성 대한 비정형 유효합니다. $(.8+.8)/2=.8$ $(1.2+.4)/2=.8$ $.8$ $X+Y$ $X$ $Y$ 갈라져. 동일한 한 차원을 나타내는 상관 변수는 동일한 특성과 점수의 차이 또는 동등성이 무작위 오차로 반복 측정되는 것으로 볼 수 있습니다. 따라서 임의의 오류가 spe에서 서로 상쇄 될 것으로 예상되므로 점수를 합산 / 평균화하는 것이 보증됩니다 .

와 가 동일한 "치수"로 보일만큼 충분히 상관되지 않는 경우 에는 그렇지 않습니다. 그런 다음 응답자의 편차 / 특성은 원점에서 유클리드 거리까지 전달됩니다 (그림 2). $X$ $Y$

응답자 1과 2의 거리는 다릅니다. 및 $\sqrt{.8^2+.8^2} \approx 1.13$ ,-응답 2가 더 멀어짐. 변수가 독립적 인 차원 인 경우 유클리드 거리는 여전히 벤치 마크가 0 인 응답자의 위치와 관련이 있지만 평균 점수는 그렇지 않습니다. 와 단지 최선의 예를 가지고및. 평균 점수의 "관점"에서이 응답자는,과 같이 절대적으로 일반적입니다 $\sqrt{1.2^2+.4^2} \approx 1.26$ $X=.8$ $Y=-.8$ $X=0$ $Y=0$ 입니다. 당신에게도 맞습니까?

$w_XX_i+w_YY_i$ $X$ $Y$ $w_X$ $w_Y$ 결함의 원인 인 모든 응답자 i에 대해 일정하게 설정됩니다. 응답자의 이변 량 편차 (원 또는 타원)를 연관 시키려면 점수에 따른 가중치를 도입해야합니다. 이전 고려 된 유클리드 거리는 변수의 불균등 한 분산 (예 : 문제에서와 같이 주요 구성 요소)을 통합하는 것이 중요 하다면 가중 유클리드 거리를 계산할 수 있습니다. 원이 길어지면 그림 2에서 찾을 수있는 거리입니다.인 실제 값에 따라 가중치를 가중 합 등의 일례. 과

$|.8|+|.8|=1.6$ $|1.2|+|.4|=1.6$ $X=.8$ $Y=-.8$ $1.6$ $0$ .

( "Manhatten 거리를 선택한 이후 모든 데이터 점수를 양수로 만들고 양심으로 총합 (또는 평균)을 계산할 것입니다."을 외치지 않을 수 있습니다. 예를 들어, 데이터가 평균을 중심으로 한 상태에서 추출되는 것이 좋습니다. 다른 원산지는 다른 점수를 가진 다른 구성 요소 / 요소를 생성했을 것입니다. 아니오, 대부분 원점을 가지고 노는 것은 아닙니다. "일반 응답자"또는 "제로 레벨 특성"-게임을 즐기는 동안

요약하자면 , 복합 구조의 목표가 응답 위치를 "제로"또는 전형적인 로커스에 상대적으로 반영하는 것이지만 변수는 거의 상관이 없으며, 그 기원으로부터의 일종의 공간적 거리이며, 평균 (또는 합계)이 아니라 또는 비가 중을 선택해야합니다.

글쎄, 당신이 같은 것을 측정하기 위해 대체 모드로 (관련되지 않은) 변수를보기로 결정하면 평균 (합계)이 의미가 있습니다 . 이런 식으로 변수의 다른 특성을 고의로 무시합니다. 다시 말해, 그림 1을 선호하여 그림 2를 의식적으로 남겨둔다. 변수가 독립적이라는 것을 잊었다. 그런 다음 합계 또는 평균을 수행하십시오. 예를 들어, "물질 복지"및 "정서적 복지"에 대한 점수는 "공간 IQ"및 "언어 IQ"에 대한 점수와 같이 평균화 될 수 있습니다. 이 유형의 순전히 실용적승인되지 않은 만족스러운 합성물을 배터리 인덱스 (배터리 인덱스)라고합니다. 상관 관계를 무시하는 상관 관계가있는 것을 측정하는 테스트 또는 설문지 모음은 "배터리"라고합니다. 배터리 지수는 점수의 방향이 동일한 경우에만 의미가 있습니다 (예 : 부와 정서적 건강이 "더 나은"극으로 표시됨). 좁은 특별 설정 이외의 유용성은 제한됩니다.

변수가 서로 관계가있는 경우-변수가 서로 중복, 대안으로 간주 될 정도로 충분히 상관 관계가없는 경우가 종종 가중 방식으로 값을 합산 (또는 평균)합니다. 그런 다음 이러한 가중치는 신중하게 설계되어야하며 이러한 방식 또는 이와 같은 방식으로 상관 관계를 반영해야합니다. 예를 들어 PCA 또는 요인 분석 (FA)을 통해 구성 요소 / 인자 점수를 특별히 계산하는 방식 입니다. 변수 자체가 이미 구성 요소 또는 요인 점수 (여기에서 OP 질문과 같이)이며 상관 관계가있는 경우 (사위 회전으로 인해) 2 차 PCA / FA를 적용하여 찾을 수 있습니다 "복합 지수"를 제공하는 2 차 PC / 요소를 얻습니다.

그러나 구성 요소 / 인수 점수가 상관 관계가 없거나 약한 상관 관계가있는 경우 무뚝뚝하거나 추론 가중치를 통해 점수 를 합산 할 통계적인 이유 는 없습니다 . 대신에 약간의 거리를 사용하십시오. 거리의 문제점은 항상 긍정적이라는 것입니다. 응답자가 비정형적인 정도는 말할 수 있지만 "위"또는 "아래"인지는 말할 수 없습니다. 그러나 이것은 다중 특성 공간에서 단일 인덱스를 요구하기 위해 지불해야하는 가격입니다. 그러한 공간에서 편차와 사인을 모두 원한다면 너무 위대하다고 말할 것입니다.

마지막으로, OP는 "인덱스"에 대한 유일한 프록시로서 분산 (이 경우 첫 번째 주요 구성 요소)과 관련하여 가장 강력한 변수 중 하나만 채점하는 것이 옳은지를 묻습니다. 해당 PC가 나머지 PC보다 훨씬 강력 하면 이치에 맞습니다. "그것이 훨씬 더 강하다면 왜 그것을 추출 / 보존하지 않았습니까?"라고 물을 수도 있습니다.

— ttnphns
소스

시계열에서 PCA를 사용하여 종합 지수 작성 에 대한 링크 http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf을 .

19 페이지의 기사에서 저자는 각 요인에 의해 설명 된 변동 비율을 선택한 요인에 의해 설명 된 총 변동에 대해 NSI (Non-Standardized Index)를 만드는 방법을 언급했습니다. 이 NSI는 정규화되었습니다.

— 새긴 게르
소스

19 페이지에있는이 부분은 위의 의견에서 아메바와 나에 의해 경고 된 사과와 오렌지를 합리적으로 의심하고 문제가되는 부분에 해당합니다. 하나의 인덱스에서 상관되지 않은 변수의 요약은 통계적 의미 가 거의 없습니다 .

— ttnphns

때때로 우리는 서로 관련이 없으며 다른 것을 측정하는 구문 / 스케일 / 테스트를 추가합니다. 배터리 인덱스 가 될 것입니다 (상대적으로 상관없는 것으로 간주되는 테스트는 "배터리"라고합니다). 배터리 인덱스 는 이전 주석에서 언급했듯이 통계적 의미 가 거의 없지만 지역적으로 실용적인 의미를 가질 수 있습니다 .

— ttnphns

질문 stats.stackexchange.com/q/236786/3277 도 참조하십시오 .

— ttnphns

위에 쓴 내용으로 인해 -1입니다.

— amoeba는 Reinstate Monica가