응답을 이중으로 변환 한 후 와 변수 사이에 강한 선형 관계를 얻었습니다 . 모델은 이지만 √로 변환했습니다. R2를 .19에서 .76으로 개선하는 X.
분명히 나는이 관계에 대해 괜찮은 수술을했다. 과도한 변환의 위험 또는 통계적 원칙 위반 가능성과 같이이 작업의 함정에 대해 토론 할 수있는 사람이 있습니까?
응답을 이중으로 변환 한 후 와 변수 사이에 강한 선형 관계를 얻었습니다 . 모델은 이지만 √로 변환했습니다. R2를 .19에서 .76으로 개선하는 X.
분명히 나는이 관계에 대해 괜찮은 수술을했다. 과도한 변환의 위험 또는 통계적 원칙 위반 가능성과 같이이 작업의 함정에 대해 토론 할 수있는 사람이 있습니까?
답변:
당신은 정말 비교할 수 없습니다 의 기본 다양성 때문에, 전후 Y가 다르다. 당신은 문자 그대로 취할 수 있도록 무엇이든 더 편안함을 변화에서 R 2 . 두 모델을 비교할 때 아무런 가치가 없습니다.
두 모델은 몇 가지 방식이 다르므로 서로 다른 의미를 갖습니다. 관계의 모양과 오류 항의 변동성에 대해 매우 다른 것으로 가정합니다 ( 와 X 의 관계 측면에서 고려할 때 ). 따라서 Y 모델링에 관심이 있다면 ( Y 자체가 의미가있는 경우)이를위한 좋은 모델을 만드십시오. 모델링에 관심이 있다면 √ (/ √ 는 의미가 있습니다), 좋은 모델을 만들어냅니다. √ 인 경우 는 의미를 지니고 있으며 이에 대한 좋은 모델을 만듭니다. 그러나 경쟁 모델을 비슷한 규모로 비교하십시오. 다른 반응에 대한R2는 단순히 비교할 수 없습니다.
높은 또는 다른 '적합성'척도를 가진 변환을 찾기 위해 다른 관계를 시도하는 경우 수행하려는 추론의 속성이 그 검색 과정.
추정치가 0에서 멀어지게하는 경향이 있고, 표준 오차가 너무 작으며, p- 값이 너무 작으며, 신뢰 구간이 너무 좁습니다. 모델은 평균적으로 '너무 좋아'것 같습니다 (샘플 밖 동작이 샘플 내 동작에 비해 실망 스러울 것입니다).
이러한 종류의 과적 합을 피하려면 가능한 경우 데이터의 여러 하위 집합 (및 1/3의 모델 평가)에 대한 모델 식별 및 추정을 수행해야합니다. 무작위로 취한 많은 "분할"데이터에 대해 이런 종류의 절차를 반복하면 결과가 얼마나 재현 가능한지 더 잘 이해할 수 있습니다.
여기에는 이러한 문제에 대한 관련 요점이 많은 게시물이 있습니다. 일부 검색을 시도해 볼 가치가 있습니다.
( 특정 변환을 선택해야하는 선험적 인 이유 가있는 경우 에는 다른 문제입니다. 그러나 변환 공간을 검색하여 적합한 것을 찾기 위해 모든 유형의 '데이터 스누핑'유형 문제가 발생합니다.)
@Glen_b로 식별 된 것보다 더 큰 문제가 있습니다.
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)
그리고 나는 얻을 0.49과 인 P-값 5.5 × (10) - (16) .
당신은 방정식의 양쪽에.
@Peter의 예에는 두 가지 요소가 있는데,이를 풀면 유용 할 수 있습니다.
(1) 모델의 잘못된 사양. 모델
&
여기서 &zi=√ , 둘 다 사실 일 수는 없습니다. 상대방의 반응에 따라 각각을 다시 표현하면이 분산 오차와 함께 매개 변수에서 비선형이됩니다.
경우 의 가우시안 확률 변수의 독립적 인 것으로 간주됩니다 X 하는 모델 1의 특별한 사건 다음, β 1 = 0 , 당신은 모델 2. 사용하지만하지 않아야 똑같이 경우 W는 가우스 무작위로 간주됩니다 변수를 Z 와 독립적 으로 사용하는 경우 모델 1을 사용해서는 안됩니다. 한 모델에 대한 선호도는 다른 이론보다는 데이터에 대한 실질적인 이론에서 비롯된 것이어야합니다.
예제를 따르면 ...
set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
Aldrich (2005), "Pearson과 Yule의 상관 관계가 진짜이고 가짜", 통계 과학 , 10 , 4 에서 이러한 문제에 대한 흥미로운 역사적 관점을 제시합니다.