이 답변은 의도적으로 비 수학적이며 각 통계에 대한 "복합 지수"점수를 얻기 위해 다른 요인의 요인 점수를 합산 / 평균화 할 수 있는지를 묻는 비 통계 심리학자 (예 : 통계 학자)를 대상으로합니다.
일부 변수의 점수를 합산하거나 평균화 하면 변수가 동일한 차원에 속하고 실행 가능한 척도 인 것으로 가정합니다. (질문에서 "변수"는 구성 요소 또는 요인 점수 이며 변수의 예이므로 항목을 변경하지 않습니다.
실제로 (그림 1) 응답자 1과 2는 동일한 평균 점수 및 ( 1.2 + .4 ) / 2 = .8 . 값 .8 은 X 및 Y 에 대한 구문 만큼 완벽하게 구성 X + Y에 대한 비정형 정도로서 유효합니다.(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXY갈라져. 동일한 한 차원을 나타내는 상관 변수는 동일한 특성과 점수의 차이 또는 동등성이 무작위 오차로 반복 측정되는 것으로 볼 수 있습니다. 따라서 임의의 오류가 spe에서 서로 상쇄 될 것으로 예상되므로 점수를 합산 / 평균화하는 것이 보증됩니다 .
와 Y 가 동일한 "치수"로 보일만큼 충분히 상관되지 않는 경우 에는 그렇지 않습니다. 그런 다음 응답자의 편차 / 특성은 원점에서 유클리드 거리까지 전달됩니다 (그림 2).XY
응답자 1과 2의 거리는 다릅니다. 및√.82+.82−−−−−−−√≈1.13,-응답 2가 더 멀어짐. 변수가 독립적 인 차원 인 경우 유클리드 거리는 여전히 벤치 마크가 0 인 응답자의 위치와 관련이 있지만 평균 점수는 그렇지 않습니다. 와 단지 최선의 예를 가지고X=0.8및Y=-0.8을. 평균 점수의 "관점"에서이 응답자는X=0,Y=0과 같이 절대적으로 일반적입니다1.22+.42−−−−−−−−√≈1.26X=.8Y=−.8X=0Y=0 입니다. 당신에게도 맞습니까?
wXXi+wYYiXYwXwY결함의 원인 인 모든 응답자 i에 대해 일정하게 설정됩니다. 응답자의 이변 량 편차 (원 또는 타원)를 연관 시키려면 점수에 따른 가중치를 도입해야합니다. 이전 고려 된 유클리드 거리는 변수의 불균등 한 분산 (예 : 문제에서와 같이 주요 구성 요소)을 통합하는 것이 중요 하다면 가중 유클리드 거리를 계산할 수 있습니다. 원이 길어지면 그림 2에서 찾을 수있는 거리입니다.인 실제 값에 따라 가중치를 가중 합 등의 일례. 과
|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=−.81.60 .
( "Manhatten 거리를 선택한 이후 모든 데이터 점수를 양수로 만들고 양심으로 총합 (또는 평균)을 계산할 것입니다."을 외치지 않을 수 있습니다. 예를 들어, 데이터가 평균을 중심으로 한 상태에서 추출되는 것이 좋습니다. 다른 원산지는 다른 점수를 가진 다른 구성 요소 / 요소를 생성했을 것입니다. 아니오, 대부분 원점을 가지고 노는 것은 아닙니다. "일반 응답자"또는 "제로 레벨 특성"-게임을 즐기는 동안
요약하자면 , 복합 구조의 목표가 응답 위치를 "제로"또는 전형적인 로커스에 상대적으로 반영하는 것이지만 변수는 거의 상관이 없으며, 그 기원으로부터의 일종의 공간적 거리이며, 평균 (또는 합계)이 아니라 또는 비가 중을 선택해야합니다.
글쎄, 당신이 같은 것을 측정하기 위해 대체 모드로 (관련되지 않은) 변수를보기로 결정하면 평균 (합계)이 의미가 있습니다 . 이런 식으로 변수의 다른 특성을 고의로 무시합니다. 다시 말해, 그림 1을 선호하여 그림 2를 의식적으로 남겨둔다. 변수가 독립적이라는 것을 잊었다. 그런 다음 합계 또는 평균을 수행하십시오. 예를 들어, "물질 복지"및 "정서적 복지"에 대한 점수는 "공간 IQ"및 "언어 IQ"에 대한 점수와 같이 평균화 될 수 있습니다. 이 유형의 순전히 실용적승인되지 않은 만족스러운 합성물을 배터리 인덱스 (배터리 인덱스)라고합니다. 상관 관계를 무시하는 상관 관계가있는 것을 측정하는 테스트 또는 설문지 모음은 "배터리"라고합니다. 배터리 지수는 점수의 방향이 동일한 경우에만 의미가 있습니다 (예 : 부와 정서적 건강이 "더 나은"극으로 표시됨). 좁은 특별 설정 이외의 유용성은 제한됩니다.
변수가 서로 관계가있는 경우-변수가 서로 중복, 대안으로 간주 될 정도로 충분히 상관 관계가없는 경우가 종종 가중 방식으로 값을 합산 (또는 평균)합니다. 그런 다음 이러한 가중치는 신중하게 설계되어야하며 이러한 방식 또는 이와 같은 방식으로 상관 관계를 반영해야합니다. 예를 들어 PCA 또는 요인 분석 (FA)을 통해 구성 요소 / 인자 점수를 특별히 계산하는 방식 입니다. 변수 자체가 이미 구성 요소 또는 요인 점수 (여기에서 OP 질문과 같이)이며 상관 관계가있는 경우 (사위 회전으로 인해) 2 차 PCA / FA를 적용하여 찾을 수 있습니다 "복합 지수"를 제공하는 2 차 PC / 요소를 얻습니다.
그러나 구성 요소 / 인수 점수가 상관 관계가 없거나 약한 상관 관계가있는 경우 무뚝뚝하거나 추론 가중치를 통해 점수 를 합산 할 통계적인 이유 는 없습니다 . 대신에 약간의 거리를 사용하십시오. 거리의 문제점은 항상 긍정적이라는 것입니다. 응답자가 비정형적인 정도는 말할 수 있지만 "위"또는 "아래"인지는 말할 수 없습니다. 그러나 이것은 다중 특성 공간에서 단일 인덱스를 요구하기 위해 지불해야하는 가격입니다. 그러한 공간에서 편차와 사인을 모두 원한다면 너무 위대하다고 말할 것입니다.
마지막으로, OP는 "인덱스"에 대한 유일한 프록시로서 분산 (이 경우 첫 번째 주요 구성 요소)과 관련하여 가장 강력한 변수 중 하나만 채점하는 것이 옳은지를 묻습니다. 해당 PC가 나머지 PC보다 훨씬 강력 하면 이치에 맞습니다. "그것이 훨씬 더 강하다면 왜 그것을 추출 / 보존하지 않았습니까?"라고 물을 수도 있습니다.