요인 분석에서 이진 변수에 대한 Pearson 상관 관계 (테트라 코릭 대신)를 계산할 때 어떤 위험이 있습니까?


10

교육 게임에 대한 연구를하고 있으며 현재 진행중인 일부 프로젝트에는 BoardGameGeek (BGG) 및 VideoGameGeek (VGG)의 데이터를 사용하여 게임의 디자인 요소 (예 : "제 2 차 세계 대전에서 설정 됨", "롤링 주사위 포함") 간의 관계를 조사합니다. ) 및 해당 게임의 플레이어 등급 (예 : 10 점 만점). 이러한 각 디자인 요소는 BGG 또는 VGG 시스템의 태그와 일치하므로 본질적으로 이분법적인 변수입니다. 게임은 데이터베이스에 존재하는 모든 태그에 대해 1을, 존재하지 않는 모든 태그에 대해 0을 갖습니다.

이 태그는 수십 가지가 있으므로 탐색 적 요소 분석 (EFA)을 사용하여 게임 디자인의 패턴을 캡처하는 관리 가능한 수의 "장르"를 만들어 내고 싶습니다 . 여러 출처를 참고하면서, 나는 이분법 적 변수로 작업하고 있기 때문에 , 내 요인 (잠재적 특성 분석과 같은 다른 옵션들도 있음 )을 생각해 낼 때 Pearson 대신 다항식 상관 관계 ( 특히 4 분자) 를 사용해야 한다는 것을 이해합니다. 거기 있지만, 이것은 내가 지금 탐색하고있는 것입니다).

호기심으로, 나는 Pearson 상관 관계를 사용하는 하나와 다면적 상관 관계를 사용하는 다른 요소 (매번 같은 수의 요인)를 사용하는 두 가지 요인을 생각해 냈습니다. 내 문제는 Pearson 상관 관계를 사용하여 계산 된 요소가 다항식 상관 관계를 사용하여 계산 된 요소보다 훨씬 더 의미가 있고 해석하기 쉽다는 것입니다. 다시 말해서, 첫 번째 요인 세트의 "장르"는 직관적으로 이해되며 게임이 일반적으로 어떻게 설계되는지에 대한 나의 이해와 일치합니다. 그것은 두 번째 요인의 경우에는 해당되지 않습니다.

한편으로는 결과가 덜 예쁘더라도 사용중인 테스트의 가정을 충족 시키려고합니다. 다른 한편으로, 나는 요소 분석 및 (보다 광범위하게) 모델 구축의 목표 중 일부는 유용한 무언가를 생각해 내야하며, "규칙을 어길 때"더 유용한 정보가 나오고 있다고 생각합니다. 이 테스트의 가정을 위반하는 것보다 유용한 모델이 필요합니까? 다항식 대신 Pearson 상관 관계를 사용하면 어떤 결과가 발생합니까?


1
기본 다변량 정규성에 대한 가정은 다항식 상관 관계가 그다지 의미가없는 3 차원 이상의 데이터에 대해 너무 강력합니다. 다항식 상관 관계를 사용한 모델 오 정확도는 분석을 다소 쓸모 없게 만듭니다. 그러나 왜 먼저 이러한 상관 관계가 필요한지 잘 모르겠습니다. 명확한 결과 변수 (등급)와 여러 설명 변수 (설계 기능)가있는 경우 요인 분석이 아니라 회귀 분석이 필요합니다.
StasK

@StasK 회귀 분석 나의 궁극적 인 목표이지만 100 개가 넘는 설명 변수가 있으며이를보다 관리하기 쉬운 숫자로 줄이고 싶습니다.
Spencer Greenhalgh

또한 이러한 문제에 대한 분류는 그 자체의 목표입니다.
Pere

답변:


7

선형 요인 분석은 이론적 으로 논리적 으로 연속 변수 에만 해당됩니다. 변수가 연속적이지 않지만, 예를 들어 이분법 적이라면, 한 가지 방법은 기본 연속 변수를 뒤에 인정하고 관찰 된 변수가 비닝 된 기본 변수 또는 실제 변수임을 선언하는 것입니다. 이 분형 변수를 외부 "튜터"가없는 스케일로 정량화 할 수 는 없지만 변수가 아직 비닝되지 않았고 "원래"연속 정규 분포 인 경우 의 상관 관계 를 여전히 유추 할 수 있습니다 . 그리고 이것은 테트라 코릭입니다상관 관계 (또는 이항 대신 순서 변수가있는 경우 다항식). 따라서 Phi 상관 (이차 데이터와 피어슨 상관이 관찰 됨) 대신 테트라 코릭 상관 (추론 피어슨 상관)을 사용하는 것이 논리적입니다.

아르 자형=1아르 자형아르 자형그러나 이분법 변수에서는이 값이 너무 적기 때문에이 효과가 가장 날카 로워집니다.) 따라서, 이분법 변수의 한계 분포로 인해 행렬의 phi 상관 관계가 불균등하게 저하 된 것으로 볼 수 있습니다. 하나의 상관 관계가 다른 "진정한"상관 관계보다 큰지 또는이 두 쌍의 변수에서 서로 다른 컷 포인트로 인해 발생하는지 알 수 없습니다. 추출 할 요인의 수 (카이저의 "고유 값> 1"과 같은 기준에 따름)가 팽창 될 것입니다. 일부 추출 된 "인자"는 불균일성의 결과, 컷 포인트의 다양성, 실질적인 잠재 요인이 아닙니다. 이것이 phi 상관 관계를 사용하지 않는 실제적인 이유입니다.

모의 실험에서 강한 (> 0.7) 상관 관계가 많으면 테트라 코릭 상관 관계에 근거한 인자 분석이 악화된다는 시뮬레이션 / 바 이닝 연구에서 증거가 있습니다. 테트라 코릭 상관 관계는 이상적이지 않습니다. 상관 기본 변수의 컷 포인트가 반대 (이분법의 한계 분포가 반대로 기울어 짐) 인 반면 기본 연관이 강하면 테트라 코릭 계수가이를 과대 평가합니다. 또한 테트라 코릭 상관 행렬은 큰 샘플이 아니라 반드시 양의 반 정밀도 일 필요는 없으므로 수정이 필요할 수 있습니다 ( "부드러운"). 그러나 일반 Pearson (phi) 계수에 대한 요인 분석을 수행하는 것보다 더 나은 방법으로 간주됩니다.

그러나 왜 이진 데이터에 대한 요인 분석 을 수행 합니까? 잠재적 특성 / IRT ( "물리적"요인 분석의 한 형태) 및 다중 대응 일치 분석 (이진 변수를 명목 범주로 볼 경우)을 포함한 다른 옵션이 있습니다.

또한보십시오:

  • 선형 계수 분석의 가정 .
  • 아르 자형아르 자형

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.