범주 형 변수 간의 공선 성


11

연속 예측 변수와 관련하여 공선 성이 많지만 범주 형 예측 변수에서는 찾을 수 없습니다. 아래에이 유형의 데이터가 있습니다.

첫 번째 요인은 유전 적 변수 (대립 유전자 수)이고 두 번째 요인은 질병 범주입니다. 분명히 유전자가 질병보다 우선하며 진단으로 이어지는 증상을 나타내는 요인입니다. 그러나 SPSS와 관련하여 일반적으로 수행되는 II 또는 III 제곱합을 사용하는 정기적 인 분석에서는 효과가 없습니다. 제곱의 제곱 유형 분석은 순서에 의존하기 때문에 적절한 순서를 입력 할 때 선택합니다. 또한, II 형 또는 III 형으로 잘 식별되지 않은 유전자와 관련이없는 질병 과정에 추가 성분이있을 수 있습니다 ( 아래의 anova2 (lm1) vs lm2 또는 Anova 참조).

데이터 예 :

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. 에게 유형 I SS를 갖는 lm1 은 배경 이론이 주어진 데이터를 분석하는 적절한 방법으로 보인다. 내 가정이 맞습니까?
  2. 이러한 문제가 일반적으로 나타나지 않는 직교 설계를 명시 적으로 조작하는 데 익숙합니다. SPSS 중심 필드의 상황에서 이것이 최선의 프로세스 (1 점이 정확하다고 가정)를 검토 자에게 납득시키기 어렵습니까?
  3. 통계 섹션에서 무엇을보고해야합니까? 추가 분석이나 의견이 있습니까?

SPSS를 사용하는 사람이 Type III 또는 II SS 만 알고 있다는 사실은 놀랍습니다. 그리고 당신은 그렇게 들립니다.
ttnphns

2
글쎄, 나는 내 질문에서 언급 한 것과 같은 지식 격차가있었습니다. 사람들의 관심사, 지식 및 소프트웨어 자체보다는 소프트웨어에 대한 소개 방법을 더 반영한 것 같습니다. 그러나 기본 옵션은 SPSS에서 사용되는 기본 유형 III 옵션과 함께 큰 역할을합니다.
매트 알브레히트

SPSS의 anova 프로 시저 (unianova?)를 사용하여 특정 순서로 2 개의 예측 변수를 입력 할 수있는 방법이 있다고합니다. 회귀 절차로 전환하여 순서를 지정하는 방법 만 알고 있습니다. 이것을 어떻게 달성합니까?
rolando2

답변:


8

요인 간의 공선 성은 매우 복잡합니다. 전형적인 예는 세 개의 연속 변수 '연령', '기간'및 '연도'를 그룹화하고 더미 인코딩 할 때 얻는 예제입니다. 다음에서 분석됩니다.

4 개 (3 개가 아닌) 참조를 제거한 후 얻은 계수는 알 수없는 선형 추세까지만 식별됩니다. 공선 성은 소스 변수의 알려진 공선 성 (age + year = period)에서 발생하기 때문에 분석 할 수 있습니다.

두 가지 요소 사이의 가짜 공선성에 대한 연구도 이루어졌다. 다음에서 분석되었습니다.

결론은 범주 형 변수 간의 공선 성이 데이터 세트를 각 구성 요소의 참조 레벨과 함께 분리 된 부분으로 분할해야한다는 것을 의미합니다. 다른 성분의 추정 계수는 직접 비교할 수 없습니다.

세 가지 이상의 요인간에보다 복잡한 공선 성을 위해서는 상황이 복잡합니다. 추정 가능한 기능, 즉 해석 할 수있는 계수의 선형 조합을 찾는 절차가 있습니다.

  • Utilitas Mathematica의 Godolphin과 Godolphin의 "행-열 디자인의 연결성"(60) pp 51-65

그러나 내 지식으로는 그러한 공선 성을 직관적으로 처리하기위한 일반적인 은색 글렛은 존재하지 않습니다.


1

장소 주변의 일부 통계 사람들과 대화를 나눈 후 이런 종류의 질문은 대답하기 가장 정확한 질문이 아닐 수 있습니다. ANOVA (또는 유사한 방법)를 사용하여 상관 관계가 높은 신경 심리학 적 측정에 대한 유전자 및 진단 상호 작용을 조사하는 것은 어려운 문제입니다. 대신 구조 방정식 모델링을 사용하여 데이터의 구조를 살펴 보았습니다.

이 답변은 SEM에 대해 더 많이 알게되면 업데이트 될 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.