데이터를 변환 할 때 피해야 할 위험은 무엇입니까?


15

응답을 이중으로 변환 한 후 XY 변수 사이에 강한 선형 관계를 얻었습니다 . 모델은 YX 이지만 √로 변환했습니다. R2를 .19에서 .76으로YXX 개선하는 X.R2

분명히 나는이 관계에 대해 괜찮은 수술을했다. 과도한 변환의 위험 또는 통계적 원칙 위반 가능성과 같이이 작업의 함정에 대해 토론 할 수있는 사람이 있습니까?


1
당신이 가진 것에서, 대수학에서 그것은 단지 처럼 보입니다 YX2. 데이터를 게시하거나 그래프를 표시 할 수 있습니까? X = 0 일 을 예상해야하는 과학적인 이유가 있습니까? Y=0X=0
Nick Cox

1
@NickCox : 나는 E Y = β 0 + β 1 X에 대한 전통적인 표기법 이라고 생각합니다 . 아마도 OP는 수학보다는 R을 말하고 있습니다 (물론 낙담해야 할 것). YXEY=β0+β1X
Scortchi-Monica Monica 복원

@ Scortchi 나는 당신이 옳은 것을 두려워합니다. 데이터를 보면 어느 쪽이든 도움이 될 것입니다.
Nick Cox

이 경우, Y는 사망을 운전하고 X는 모든 운전자가 운전하는 총 KM이므로 0 X는 0 Y를 의미합니다.
Info5ek

2
방정식 그렇지 @AaronHall 반드시 (의해 다시 곱 때문에, 쓸모 그건X일부 상황에서 잠재적으로 그럴듯한 모델 일 수 있음). 그러나질문에 주어진 방정식 형태의R2는별로 사용되지 않지만 다른 척도에 맞는 것과 비교할 수는 없습니다. (우연히, 그것이 내 대답에 대한 귀하의Y=β0X+β1X+XϵR2
공감각

답변:


20

당신은 정말 비교할 수 없습니다 의 기본 다양성 때문에, 전후 Y가 다르다. 당신은 문자 그대로 취할 수 있도록 무엇이든 더 편안함을 변화에서 R 2 . 두 모델을 비교할 때 아무런 가치가 없습니다.R2YR2

두 모델은 몇 가지 방식이 다르므로 서로 다른 의미를 갖습니다. 관계의 모양과 오류 항의 변동성에 대해 매우 다른 것으로 가정합니다 ( X 의 관계 측면에서 고려할 때 ). 따라서 Y 모델링에 관심이 있다면 ( Y 자체가 의미가있는 경우)이를위한 좋은 모델을 만드십시오. 모델링에 관심이 있다면 YXYY (/Y 는 의미가 있습니다), 좋은 모델을 만들어냅니다. √ 인 경우Y 는 의미를 지니고 있으며 이에 대한 좋은 모델을 만듭니다. 그러나 경쟁 모델을 비슷한 규모로 비교하십시오. 다른 반응에 대한R2는 단순히 비교할 수 없습니다.Y/XR2

높은 또는 다른 '적합성'척도를 가진 변환을 찾기 위해 다른 관계를 시도하는 경우 수행하려는 추론의 속성이 그 검색 과정.R2

추정치가 0에서 멀어지게하는 경향이 있고, 표준 오차가 너무 작으며, p- 값이 너무 작으며, 신뢰 구간이 너무 좁습니다. 모델은 평균적으로 '너무 좋아'것 같습니다 (샘플 밖 동작이 샘플 내 동작에 비해 실망 스러울 것입니다).

이러한 종류의 과적 합을 피하려면 가능한 경우 데이터의 여러 하위 집합 (및 1/3의 모델 평가)에 대한 모델 식별 및 추정을 수행해야합니다. 무작위로 취한 많은 "분할"데이터에 대해 이런 종류의 절차를 반복하면 결과가 얼마나 재현 가능한지 더 잘 이해할 수 있습니다.

여기에는 이러한 문제에 대한 관련 요점이 많은 게시물이 있습니다. 일부 검색을 시도해 볼 가치가 있습니다.

( 특정 변환을 선택해야하는 선험적 인 이유 가있는 경우 에는 다른 문제입니다. 그러나 변환 공간을 검색하여 적합한 것을 찾기 위해 모든 유형의 '데이터 스누핑'유형 문제가 발생합니다.)


응답 Glen에 감사드립니다. 내가이 변형을 한 이유는 편향된 잔차를주지 않는 유일한 것이기 때문입니다. 나는 표준 y / x, log (y), sqrt (y) 및 다양한 조합을 시도했습니다. 모든 결과는 경 사진 잔차 도표로 나타났습니다. 2 단계 변환을 수행 한 후에 만 ​​무작위로 나타나는 잔차를 얻었습니다. 그러나이 모델은 데이터를 과적 합했을 수도 있으므로 샘플 외부 데이터에 대해 유익하지 않을 수 있다고 지적합니다.
Info5ek

글쎄, 그러나 데이터를 볼 때 모든 형태의 모델 지정에 문제가 있으므로 많은 일이 발생합니다. 많은 상황에서 피하기 어려워 샘플 분할이 발생할 수 있습니다. (교차 유효성 검사는 이러한 상황에 유용한 도구가 될 수 있습니다.)
Glen_b -Reinstate Monica

downvote의 이유를 아는 것이 유용 할 것입니다. 대답에 어떤 문제가 있습니까? 아마도 그것은 향상 될 수 있습니다. (개선 할 수 없다면 왜
다운 보트

1
@Glen_b : 까다로운 정의 된 절차를 교차 검증하기 까다로워-각 접힘마다 진단을보고, 마음에 들지 않을 때 다른 변환을 생각하고, 시도하는 등의 과정을 반복해야합니다.
Scortchi-Monica Monica 복원

1
@Scortchi 예, 간단한 규칙으로 알려진 후보 풀에서 변환을 선택하지 않으면 불가능할 수 있습니다.
Glen_b-복지 주 모니카

16

@Glen_b로 식별 된 것보다 더 큰 문제가 있습니다.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

그리고 나는 얻을 0.49과 인 P-값 5.5 × (10) - (16) .R25.5×1016

당신은 방정식의 양쪽에.X


2
모델을 다른 방식이 아닌 한 가지 방식으로 표현해야하는 선험적 인 이유가없는 것이 다른 문제인지 확실하지 않습니다. W = 라고하면 &Z=W=YX 다음에 첫 번째 모형 (YX)이방정식의 양변에Z2가있다고 말할 수 있습니다. Z=XYXZ2
Scortchi-Monica Monica 복원

4
경우 Z는 회귀 랜덤 잡음이다 Y를X는 강한 관계를 제공한다. 변수가 의미하는 바를 고려하지 않고 하나의 회귀를 다른 것보다 가짜로 표시하는 비대칭 성은 언제입니까? 이런 종류의 것은 Pearson & Yule ( Aldrich (1995) ) 사이에서 논의되었고 나는 Yule과 함께 논란의 여지가 있습니다. WZYX
Scortchi-Monica Monica 복원

1
그래,하지만 여기,이있는 변수는 중요하지 X와 Y합니까 시작 회귀는, 말하자면, 변수?
Peter Flom-Monica Monica 복원

2
@Glen_b가 첫 문장에서 지적하는 한, 목표가 를 예측하는 것이라면 W 에 대한 모델의 높은 결정 계수는 까다로울 것이 없습니다. 물론 오류 용어의 모양에 대한 강력한 아이디어가 있다면 한 모델이 다른 모델보다 다루기 쉽습니다. YW
Scortchi-Monica Monica 복원

4
당신은 W & Z, @Scortchi에 대해 좋은 지적을하지만, 당신이 관심있는 변수가 무엇인지, 더 나은 모델을 얻기 위해 만든 변수는 중요하다고 생각합니다. 실제 변수는 실제 질문의 맥락에서 X 등의 의미에 의해 결정됩니다. 나는 OP가 b / t X & Y의 관계를 이해하고 모델 적합을 향상시키기 위해 W & Z를 만들려는 텍스트에서 추론합니다. 즉,이 구체적인 경우에는 Peter가 옳은 것 같습니다 .X를 양면에 넣어서 모델을 향상시킬 수는 없습니다.
gung-복직 모니카

4

@Peter의 예에는 두 가지 요소가 있는데,이를 풀면 유용 할 수 있습니다.

(1) 모델의 잘못된 사양. 모델

yi=β0+β1xi+εi(1)

&

wi=γ0+γ1zi+ζi(2)

여기서 &zi=wi=yixi , 둘 다 사실 일 수는 없습니다. 상대방의 반응에 따라 각각을 다시 표현하면이 분산 오차와 함께 매개 변수에서 비선형이됩니다.zi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

경우 의 가우시안 확률 변수의 독립적 인 것으로 간주됩니다 X 하는 모델 1의 특별한 사건 다음, β 1 = 0 , 당신은 모델 2. 사용하지만하지 않아야 똑같이 경우 W는 가우스 무작위로 간주됩니다 변수를 Z 와 독립적 으로 사용하는 경우 모델 1을 사용해서는 안됩니다. 한 모델에 대한 선호도는 다른 이론보다는 데이터에 대한 실질적인 이론에서 비롯된 것이어야합니다.YXβ1=0WZ

YXWZW

EYx=EYzβ0+VarY8β03/2z

z

예제를 따르면 ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

yxwzwzzw

Aldrich (2005), "Pearson과 Yule의 상관 관계가 진짜이고 가짜", 통계 과학 , 10 , 4 에서 이러한 문제에 대한 흥미로운 역사적 관점을 제시합니다.


3

@Glen_b의 초기 답변은 모두 중요합니다. 변환을 사용하면 통계적 추론의 모든 부분이 왜곡되고아르 자형2그것은 편향되어 있습니다. 요컨대, 모르는 모든 것에 대해 모델에 매개 변수를 사용하지 않으면 정밀도가 잘못됩니다. 이것이 회귀 스플라인이 이제 매우 인기있는 이유입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.