PCA 또는 요인 분석에서 치우친 변수


9

22 개의 변수를 기반으로 SPSS에서 주성분 분석 (인자 분석)을하고 싶습니다. 그러나 내 변수 중 일부가 매우 비뚤어졌습니다 (SPSS에서 계산 된 차이는 2 – 80입니다!).

내 질문은 다음과 같습니다.

  1. 비뚤어진 변수를 그대로 유지해야합니까 아니면 주성분 분석에서 변수를 변환 할 수 있습니까? 그렇다면 요인 점수를 어떻게 해석합니까?

  2. 어떤 유형의 변환을해야합니까? log10 또는 ln?

  3. 원래 KMO (Kaiser–Meyer–Olkin)는 0.413입니다. 많은 문헌에서 최소 0.5를 권장합니다. 여전히 요인 분석을 수행 할 수 있습니까, 아니면 KMO를 0.5로 올리기 위해 변수를 제거해야합니까?


5
참고 : PCA는 요인 분석과 다릅니다. PCA는 데이터 축소 방법이며, FA는 잠재 변수를 찾기위한 시도입니다. 그들은 항상 (항상 그런 것은 아님) 비슷한 결과를
냅니다

답변:


9
  1. PCA의 왜도 문제는 회귀 분석과 동일합니다. 분포의 전체 범위에 비해 길이가 길면 꼬리가 길어질수록 실제로는 이상치처럼 행동합니다. 적합 선 (귀하의 주성분)을 그 영향이 강화 되었기 때문에; 평균과는 거리가 멀기 때문에 그 영향이 강화됩니다. 매우 치우친 변수를 허용하는 PCA와 관련하여 데이터를 중심에 두지 않고 PCA를 수행하는 것과 매우 유사합니다 (즉, 상관 행렬이 아닌 코사인 행렬을 기반으로 PCA를 수행). 긴 꼬리가 결과에 큰 영향을 미치도록하고 (데이터를 그대로 두도록) 또는 데이터를 변환하지 않도록 결정 하는 것은 사용자입니다 . 이 문제는 하중 해석 방법과 관련이 없습니다.

  2. 당신이 원하는대로.

  3. KMO는 데이터를 요인 분석에 제출하기 위해 부분 상관이 합리적으로 작은 지 여부를 알려주는 색인입니다. 요인 분석에서 일반적으로 요인이 개 이상의 변수 를로드 할 것으로 예상하기 때문 입니다. KMO가 충분히 낮습니다. 개별 KMO 값이 낮은 분석 변수에서이 값을 낮추면 더 좋을 수 있습니다 (이것은 안티 이미지 매트릭스 의 대각선 형태 이므로 SPSS 계수 절차에서이 매트릭스를 표시하도록 요청할 수 있습니다). 덜 치우친 변수로 변수를 변환하면 KMO를 복구 할 수 있습니까? 누가 알아. 아마도. KMO는 주로 주요 구성 요소 분석 모델이 아닌 요인 분석 모델에서 중요합니다. FA에서는 PCA에서는 그렇지 않지만 FA에서는 쌍별 상관 관계에 적합합니다.


2

@ttnphns에 +1하면 포인트 2에서 조금 확장하고 싶습니다. 변형은 종종 왜곡을 안정화하는 데 사용됩니다. @ttnphns가 지적했듯이 분석을 실행 하기 전에 이것을 사용할 것 입니다. 로그 변환은 Box-Cox 전력 변환 제품군의 일부입니다.. 로그보다 단순한 변형 (예 : 제곱근, 역수 등)을 고려하고 싶을 것입니다. 다른 로그 기반 중에서 선택해도 변환 강도에는 영향을 미치지 않습니다. 사람들이 변환 된 변수로 수학적으로 작업 할 때, 자연 로그는 경우에 따라 더 깨끗한 수학을 만들 수 있기 때문에 때때로 자연 로그가 선호됩니다. 당신이 그것에 관심이 없다면, 당신은 해석을 용이하게 할 기지를 선택하고 싶을 수도 있습니다. 즉, 새로운 스케일의 각 단위 증가는 기본 을 나타냅니다원래 스케일의-배 증가 (예를 들어, log base 2를 사용한 경우 모든 단위는 2 배 증가하고, base 10은 모든 단위가 10 배 증가 함 등을 의미 함) 데이터가 변환 된 스케일에서 여러 단위로 확장되도록 기본을 선택합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.