역 독립 변수를 사용한 회귀


10

종속 변수 의 벡터 와 독립 변수 의 벡터 가 있다고 가정 해 봅시다 . 가 에 대해 그려 질 때 , 둘 사이에 선형 관계 (상향 추세)가 있음을 알 수 있습니다. 이제 이것은 또한 와 사이에 선형 하향 추세가 있음을 의미합니다 .Y N X Y 1NYNXY YX1XYX

이제 회귀 분석을 실행하면 이고 적합 값 얻습니다.Y = β XY=βX+ϵY^=β^X

그런 다음 회귀 분석을 실행합니다 및 적합 값 ~ Y = α (1)Y=α1X+ϵY~=α^1X

예측 된 두 값인 와 가 대략 같습니까? ~ YY^Y~

답변:


10

 Y가 에 대해 그려 질 때 , 둘 사이에 선형 관계 (상향 추세)가 있음을 알 수 있습니다. 이제 이것은 또한 Y와 X 사이에 선형 하향 추세가 있음을 의미합니다.1X

마지막 문장이 잘못되었습니다. 하락 추세가 있지만 결코 선형이 아닙니다. Y ~ 1 / X Y ~ X

I가 사용되는 함수로서 플러스 노이즈의 비트 . 당신이 볼 수 있듯이 음모를 꾸미고있는 동안, 상대로 선형 동작, 산출 에 대한 직선 거리가 멀다. YY1f(x)=1xYY YX1XYX

(점 @whuber 밖으로 그 에 대한 플롯 homoscedastic 보이지 않는다. 나는 저를 위해 더 높은 편차를 보인다 생각 본질적으로 어떤 때문에 더 높은 경우 밀도 리드 더 큰 범위로 우리 실제로, 데이터는 균 질적입니다. 데이터 를 생성하는 데 사용 되었으므로 크기에 의존하지 않습니다 .)1Y YX1XYY = 1 / X + rnorm (length (X), sd = 0.1)X

따라서 일반적으로 관계는 매우 비선형 적입니다. 즉, 범위 가 너무 좁지 않으면 근사 할 수 있습니다예를 들면 다음과 같습니다.d 1Xd1xdx=1x2const.

Y ~ 1 / X Y ~ X

결론 :

  • 일반적으로 선형 또는 다항식 함수 로 유형 함수 를 근사화하는 것은 매우 어렵습니다 . 오프셋 용어가 없으면 합리적인 근사치를 얻지 못합니다.1X
  • 는 IF 간격이 선형 근사를 허용하는 좁은 정도가, 당신은 어쨌든 관계가 있어야합니다 추측 데이터에서 할 수없는 것 (선형이 아닌 ).1X X1XX

유효하지 않은 가정으로 시작하십시오. OP는 절대로 와 가 선형 적으로 관련되어 있다고 주장하지 않았습니다 . 유일한 주장은 와 가 (음의 기울기와 함께) 선형 적으로 관련된 것처럼 보인다는 것입니다. 그것은 물론 와 가 비선형 적으로 관련 되어 있음을 나타냅니다 . 나는 이것이 귀하의 게시물의 나머지 부분이 독자를 더 오도 할 수 있다는 의문과는 거리가 멀다고 생각합니다. X Y 1 / X Y XYXY1/XYX
whuber

2
@ whuber : 정말 미안하지만 지금은 밀도가 높습니다. 질문 : "Y가 1 / X에 대해 플롯 될 때 선형 관계 (상향 추세)가 있음을 알 수 있습니다". 이것이 첫 번째 및 세 번째 이미지에서 묘사하려고했던 것입니다 .Y over 1 / X 선형 적으로 증가합니다. 그런 다음 해당 Y를 X에 플로팅했습니다 (비선형, 감소). OP는 어디에서 오해합니까?
SX에 불만족 cbeleites

1
죄송합니다. 게시물을 잘못 읽었습니다 (첫 번째 이미지에서 X 축 레이블을 바꿈). 잘못은 전부 야 따라서 귀하의 답변을 올바로지지합니다. 이는 정확하고 유익합니다. 그러나 기회가 있다면,이 변환이 잔차의 균일 성 (또는 부족)에 미치는 영향에 대해 언급하고 싶을 수 있습니다 ( vs 플롯 에서 감지 할 수 있음 ). 1 / XY1/X
whuber

동종 요법에 대한 관찰에 감사드립니다. 독립 변수를 변환하여 반응의 동질성을 변경하지는 않지만 지적한대로 외관이 확실히 변할 수 있습니다. (. 우리는 여러 가지 다른 게시물, 예를 들어 그룹 인구의 단순한 차이에 대한 사람들의 잘못된 속성이 분산이 현상을 보았다)
whuber

매우 철저한 답변과 의견! @cbeleites와 @whuber에게 감사합니다!
Mayou

2

나는 그것들이 일반적으로 "대략 동일하다"는 이유를 보지 못합니다. 그러나 대략 동등하게 무엇을 의미합니까?

다음은 장난감 예입니다.

library(ggplot2)
n <- 10^3
df <- data.frame(x=runif(n, min=1, max=2))
df$y <- 5 / df$x + rnorm(n)
p <- (ggplot(df, aes(x=x, y=y)) +
      geom_point() +
      geom_smooth(method="lm", formula=y ~ 0 + x) +  # Blue, OP's y hat
      geom_smooth(method="lm", formula=y ~ 0 + I(x^-1), color="red"))  # Red, OP's y tilde
p

사진:

나는 이것들이 "대략 동일하다"고 말하고 싶다

"파란색"모델은 절편 (즉, 상수) 항을 가질 수 있다면 훨씬 더 나을 것입니다 ...


파란색 모델로 무엇을하고 있는지 말하기는 어렵지만 OP가 설명하는 것과는 다릅니다. 빨간색은 질문에 제시된 상황에 훨씬 가깝습니다.
whuber

@cbeleites 오프셋의 부족은 다른 신비가 무엇인지 설명합니다. Adrian, 당신은 맞습니다. 그러나 당신의 예가 OP의 데이터와 많은 관련이 있다고 생각합니다. 이 게시물은 와 플롯 (절편없이)이 좋은 것으로 보이는 상황을 설명하는 반면, 와 사이의 좋은 관계가있는 상황을 보여줍니다. 물론 대 맞춤이 끔찍합니다. 1 / X Y X Y 1 / XY1/XYXY1/X
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.