예 / 아니요 응답이 많은 데이터 집합이 있습니다. 수 나는이 타입의 데이터의 주요 구성 요소 (PCA) 또는 (예 요인 분석과 같은) 다른 데이터 감소 분석을 사용할 수 있습니까? SPSS를 사용하여이 작업을 수행 하는 방법을 알려주십시오 .
예 / 아니요 응답이 많은 데이터 집합이 있습니다. 수 나는이 타입의 데이터의 주요 구성 요소 (PCA) 또는 (예 요인 분석과 같은) 다른 데이터 감소 분석을 사용할 수 있습니까? SPSS를 사용하여이 작업을 수행 하는 방법을 알려주십시오 .
답변:
PCA 또는 요인 분석에서 이분법 또는 이진 변수에 대한 문제는 영원합니다. "그것은 불법이다"에서 "괜찮아"까지 "당신이 할 수는 있지만 너무 많은 요소를 얻게 될 것"과 같은 의견이 있습니다. 내 현재 의견은 다음과 같습니다. 첫째, 나는 이진 관측 변수가 설명 적이며 어떤 식 으로든 연속적인 것으로 취급하는 것은 부적절하다고 생각합니다. 이 이산 변수가 요인 또는 주요 성분을 유발할 수 있습니까?
요인 분석 (FA). 정의에 따른 요인은 관측 가능한 변수 ( 1 , 2 ) 를로드하는 연속적인 잠복입니다 . 결과적으로, 후자는 인자에 의해 충분히로드 될 때 연속적 (또는 간격,보다 실질적으로 말하면) 일 수 없다. 또한 선형 회귀 특성으로 인해 FA는 uniqness라고하는 나머지로드되지 않은 부분도 연속적이라고 가정하므로 관측 가능한 변수는 약간로드 된 경우에도 연속적이어야합니다. 따라서 이진 변수 는 FA로 입법 될 수 없습니다. 그러나 적어도 두 가지 방법이 있습니다. (B) factor는 이차 변수를 선형 적으로가 아니라 논리적으로로드하고 선형 FA 대신 잠재 특성 분석 (일명 품목 반응 이론)을 수행한다고 가정합니다. 더 읽어보십시오 .
주요 성분 분석 (PCA). FA와 공통점이 많지만 PCA는 모델링이 아니라 요약 방법 일뿐입니다. 구성 요소는 요인로드 변수와 동일한 개념의 의미로 변수를로드하지 않습니다. PCA에서 구성 요소는 변수를로드 하고 변수는 구성 요소를로드합니다. 이 대칭은 PCA 자체가 공간에서 변수 축의 회전 일 뿐이 기 때문입니다. 이진 변수는 구성 요소 자체에 의해 실제 연속성을 제공하지 않습니다. 연속적이지 않기 때문에 의사 연속성은 PCA 회전 각도로 제공 될 수 있습니다. 따라서 PCA에서 FA와 달리 순수 이진 변수 (회전하지 않은 축)로 보이는 연속 치수 (회전 된 축) 를 얻을 수 있습니다 -각도는 연속성의 원인입니다
: FA 또는 이진 데이터의 PCA에 대한 몇 가지 관련 질문 1 , 2 , 3 , 4 , 5 , 6 . 거기에 대한 답변은 잠재적으로 나와 다른 의견을 표현할 수 있습니다.
점 또는 범주로 변수에 대한 수준 엔터티-주축 공간에서의 좌표는 실제로 스케일 값입니다. 그러나 이진 데이터의 데이터 포인트 (데이터 사례)가 아니라 "점수"는 의사 연속 값입니다. 본질적 측정 값이 아니라 일부 오버레이 좌표입니다.
이진 데이터의 예 (두 변수의 간단한 경우) :
아래의 산점도는 (빈도를 렌더링하기 위해) 약간 지 터링 된 데이터 포인트를 표시하고 주요 컴포넌트 축을 컴포넌트 점수를 갖는 대각선으로 표시합니다 [제 주장에 따르면 이러한 점수는 의사 연속 값입니다]. 모든 그림의 왼쪽 그림은 원점과의 "원시"편차를 기준으로 PCA를 보여주고 오른쪽 그림은 배율 (대각선 = 단위) 편차를 기반으로 PCA를 보여줍니다.
1) 기존 PCA는 (0,0)
원점을 데이터 평균 (중심)에 둡니다 . 이진 데이터의 경우 평균은 가능한 데이터 값이 아닙니다. 그러나 물리적 무게 중심입니다. PCA는 이에 대한 다양성을 극대화합니다.
(이진 변수의 평균과 분산이 서로 밀접하게 연결되어 있다는 것은 잊어 버리지 않아야합니다. 즉, "한 가지"입니다. 이진 변수의 표준화 / 확장, 즉 공분산이 아닌 상관 관계에 따라 PCA를 수행하는 것을 현재 인스턴스는 더 많은 변수가 왜곡 된 것보다 PCA에 더 큰 영향을 미치도록보다 균형 잡힌 변수를 방해 함을 의미합니다.)
2) 중심이 아닌 데이터에서 PCA를 수행 할 수 있습니다 (예 : 원점 (0,0)
이 위치로 이동하도록 함) (0,0)
. MSCP ( X'X/n
) 매트릭스 또는 코사인 유사성 매트릭스의 PCA입니다 . PCA는 속성이없는 상태에서 돌파 성을 극대화합니다.
3) 원점 (0,0)
은 맨해튼 거리의 가장 작은 합계의 데이터 포인트에서 다른 모든 데이터 포인트 (L1 메도 이드)까지 놓을 수 있습니다. 메도 이드는 일반적으로 가장 "대표적인"또는 "전형적인"데이터 포인트로 이해됩니다. 따라서 PCA는 빈도 외에 비정 형성을 극대화합니다. 우리의 데이터에서 L1 메도 이드는 (1,0)
원래 좌표에 떨어졌습니다 .
4) 또는 (0,0)
주파수가 가장 높은 다변량 모드 인 데이터 좌표에 원점 을 놓습니다 . 이 (1,1)
예 에서는 데이터 셀입니다. PCA는 주니어 모드를 최대화 할 것입니다.
5) 답의 본문에서, 테트라 코릭 상관 관계는 이진 변수에 대한 인자 분석을 수행하기에 건전한 문제라고 언급되었습니다. PCA에 대해서도 마찬가지 입니다. 테트라 코릭 상관 관계를 기반으로 PCA 를 수행 할 수 있습니다 . 그러나 이것은 바이너리 변수 내에서 기본 연속 변수를 가정하고 있음을 의미합니다.