상한이있는 하나의 변수를 고려할 때 사용할 회귀 유형은 무엇입니까?


9

두 변수 간의 관계를 모델링하는 데 어떤 방법을 사용해야하는지 잘 모르겠습니다 (xy)는 다음과 같이 실험에서 설명됩니다.

  • 3 가지 변수가 있습니다 : xaim, xy.
  • 의 가치 xaim실험을 수행 할 때 설정됩니다. 하나,xxaim 항상 같은 것은 아닙니다.
  • 피어슨의 상관 계수 xaimx 약 0.9입니다.
  • 피어슨의 상관 계수 xy 훨씬 적습니다 : 약 0.5.
  • y 가능한 최대 값 (ymax)를 초과 할 수 없습니다.
  • 각 데이터 포인트는 설정 후 획득 xaim 그리고 독서 xy.

피어슨의 상관 계수는 xy 대단하지 않습니다. y 와 함께 증가하는 경향이 x.

간단한 선형 회귀를 한 후 y=f(x)x=g(y) (그리고 후자를 g1와 같은 그래프에 표시되도록 f 예를 들어, 두 경사는 모두 양이지만 경사는 g1 ~보다 크다 f.

말하는 것이 이치에 맞습니까? xmax=f1(ymax) 또는 xmax=g(ymax)? (xmax 두 번째 경우 더 일찍 도달 할 것입니다.)

고려해 보면 y 에 묶여있다 ymax가능한 최대 값에 대해 말할 수있는 것 x 도달 할 수 있습니까?

내가 이해하는 한, 형태의 선형 회귀를 수행하는 것이 합리적입니다. y=f(x) 언제 x 독립 변수이며 y종속 변수입니다. 그러나이 맥락에서, 나는 그것을 고려하는 것이 의미가 있는지 확실하지 않습니다.x 독립적이며 y 의존적입니다.

총 최소 제곱 회귀가 더 적절할까요? 어떤 값을 결정하는 다른 방법이 있습니까?xmax (그리고 어떤 가능성으로) 도달 할 수 있습니까?

(이것이 중요하다면 xy 더 높은 값에 도달하려고 더 많은 시도가 있었으므로 정규 분포를 따르지 않는 것 같습니다. x.)


이 관계를 찾으면 어떻게 할 것입니까? 가설을 시험해 보시겠습니까, 아니면 어떻게 보이는지 관심이 있습니까? 많은 데이터 포인트가있는 경우 비선형 모델을 고려해야합니다.
mpiktas

@mpiktas, 궁극적으로, 나는 y_max에 도달하거나 넘어가는 것이 실험을 무효화한다는 점을 고려할 때 어떤 x_max가 정기적으로 (한 번이 아니라) 도달 할 수있는 합리적인 목표인지 알고 싶습니다. (x = x_min 그 시도를 위해).
Bruno

총 최소 제곱 (또는 변수 오류) 회귀 분석은 x 에 비해 크기가 커진다 y. 와 90 %의 상관 관계xaim 의 분산을 제안합니다 x독립 변수로 안전하게 취급 할 수있을 정도로 충분히 작을 수 있습니다. 이것은 잔차의 RMSE를 비교하여 회귀 후를 확인할 수있는 것입니다.xaim vs. x 잔차의 RMSE에 y vs. xaim. 인지 어떤지ymax문제가 달려있다; 산점도에서 상단 컷오프가 보이면xaim중요한 고려 사항입니다.
whuber

답변:


4

@King의 요점을 말하고 싶습니다. 회귀가 의심되는 것은 매우 직관적입니다.y 위에 x ( '직접 회귀') 및 회귀 x 위에 y( '역 회귀')는 같아야합니다. 그러나 이것은 수학적으로나 회귀가 분석중인 상황과 어떤 관련이 있는지에 대해서는 사실이 아닙니다. 플롯하면y 그래프의 세로축에 x가로축에서 무슨 일이 일어나고 있는지 볼 수 있습니다. 직접 회귀는 데이터 점과 선 사이의 수직 거리를 최소화하는 선을 찾는 반면, 역 회귀는 수평 거리를 최소화합니다. 하나를 최소화하는 선은 다른 경우에만 다른 것을 최소화합니다rxy=1.0. 설명 할 내용과 설명 할 내용을 결정해야합니다. 그 질문에 대한 답은 어떤 변수가yx모델을 지정합니다. 또한 (@King에 이어), 나는 말하기 위해 동의하지 않습니다.xmax=f1(ymax)같은 이유로.

경계 변수의 문제와 관련하여 일반적으로 '실제'양이 더 높아질 수 있지만 측정 할 수는 없습니다. 예를 들어, 창문 밖으로 나가는 외부 온도계는 120 개까지 올라갈 수 있지만, 어떤 곳에서는 140 개 밖에 나가지 않을 수 있습니다. 따라서 변수에는 상한이 있지만 실제로 생각하고 싶은 것은 그렇지 않습니다. 이 경우, 그러한 상황에 대한 토비트 모델이 존재합니다.

다른 접근 방식은 황토와 같은보다 견고한 것을 사용하는 것이며, 이는 귀하의 요구에 완벽하게 적합 할 수 있습니다.


지연에 대한 사과, 나는 당신의 대답을 보지 못했습니다. Tobit 모델에 대해 읽어야합니다.
Bruno

문제 없어요. 회귀의 특성에 대한 자세한 내용은 (역대 회귀 분석) 여기를 참조 하십시오 . 다양한 소프트웨어를 사용하여 비트 회귀를 적용하는 데 도움이 필요하면 여기를 시도 하십시오 .
gung-모니 티 복원

3

첫째로, 나는 그것이 말하는 것이 의미가 없다고 생각합니다 xmax=f1(ymax) 여기서는 일대일 기능이라는 것을 암시하는 것과 같습니다. xmax 다른 관찰되지 않은 변수에 의해 설명됩니다.

둘째, 그것은 실제로 독립 또는 종속 변수로 취급 할 수있는 상황에 달려 있습니다. 이론이 한 가지 방법을 강하게 제안하지 않는 한 내 경험으로는; 어느 쪽이든 괜찮습니다. 10 월 7 일에 대한 귀하의 의견에서x 의존하는 동안 y 독립적입니다.

가능하면 잔차를보고 무엇이든 짜낼 수 있는지 확인하십시오. 잊어 버린 또 다른 변수가있을 수 있습니다. 또는 변수를 변환하는 데 도움이 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.