간단한 데이터 분석 연습이 종종 통계 개념을 설명하고 명확하게하는 데 도움이 될 수 있습니다. 통계 개념을 가르치기 위해 어떤 데이터 분석 연습을 사용하십니까?
간단한 데이터 분석 연습이 종종 통계 개념을 설명하고 명확하게하는 데 도움이 될 수 있습니다. 통계 개념을 가르치기 위해 어떤 데이터 분석 연습을 사용하십니까?
답변:
교수법이 아닌 변수 선택 방법을 자주 설명해야하지만 비 통계학자가 연구에 도움을 요청하는 경우 단일 변수 선택이 반드시 좋은 아이디어가 아닌 이유를 보여주는 매우 간단한 예를 좋아합니다.
이 데이터 세트가있는 경우 :
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
X1과 X2가 개별적으로 y에 대해 완전히 정보가 없음을 깨닫는 데 오래 걸리지 않습니다 (동일한 경우 y는 '확실합니다'는 1 임) 온 우주가 되십시오). 그러나 두 변수의 조합은 완전히 유익합니다. 따라서 사람들이 각 개별 변수를 회귀 변수로 사용하는 모델의 p- 값만 확인하는 것이 왜 좋지 않은지 이해하는 것이 더 쉽습니다.
내 경험상, 이것은 정말로 메시지를 전달합니다.
다중 회귀 계수 및 예상 부호 오류
데이터 분석 연습을 통해 통계 개념을 가장 좋아하는 그림 중 하나는 다중 회귀 분석을 다중 이변 량 회귀 분석으로 분해하는 것입니다.
목표
개념
다중 회귀 모델의 회귀 계수는 a) 모형의 다른 모든 예측 변수 (x2 ... xN)와 관련이없는 주어진 예측 변수 (x1)의 부분; 2) 모형의 다른 모든 예측 변수 (x2 ... xN)와 관련이없는 반응 변수 (Y)의 일부. 예측 변수간에 상관 관계가있는 경우 예측 변수와 관련된 부호는 이러한 잔차 간의 관계를 나타냅니다.
운동
r2의 단계 4에 대한 계수는 x1 및 x2의 다중 회귀 모델에 대한 x1의 계수가됩니다. y와 x2에 대해 x1을 부분적으로 나누어 x2에 대해 동일한 작업을 수행 할 수 있습니다.
이 연습을위한 R 코드가 있습니다.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
다음은 관련 결과 및 결과입니다.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***