선형 회귀 분석이 단순한 결정 론적 시퀀스의 결과를 예측할 수없는 이유는 무엇입니까?


9

내 동료가 나에게이 문제를 보냈고 분명히 인터넷에서 라운드를 진행했다.

If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ?

답은 200 인 것 같습니다.

3*6  
4*8  
5*10  
6*12  
7*14  
8*16  
9*18  
10*20=200  

R에서 선형 회귀를 할 때 :

data     <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98))  
lm1      <- lm(b~a, data=data)  
new.data <- data.frame(a=c(10,20,30))  
predict  <- predict(lm1, newdata=new.data, interval='prediction')  

나는 얻다:

  fit      lwr      upr  
1 154 127.5518 180.4482  
2 354 287.0626 420.9374  
3 554 444.2602 663.7398  

그래서 선형 모델은 입니다.10=154

데이터를 플롯하면 선형으로 보이지만 분명히 올바르지 않은 것으로 가정했습니다.

R에서 선형 모델을 가장 잘 사용하는 방법을 배우려고합니다.이 시리즈를 분석하는 올바른 방법은 무엇입니까? 내가 어디로 잘못 갔니?


7
에헴 . (i) 문제의 표현은 무의미합니다. 3 = 18은 어떻게 할 수 있습니까? 확실히 의도는f(3)=18; (ii) 글을 충분히 볼 수 있다면18=3×6, 32=4×8등을 포함하여 두 번째 항을 각 항 (6=3×2, 8=4×2) 등을 작성하여 작성하십시오. 18=3×3×2, 32=4×4×2등, 즉시 이차를 발견,f(x)=2x2. (당신은 어려운 부분을 수행, 다음 단계는 훨씬 간단합니다!)
Glen_b-복지국 모니카

4
또한 문제가 답변에 대한 최소 정보 내용 기준을 지정 했습니까? 수학을 올바르게 기억한다면,이 점들에 맞는 셀 수없이 많은 함수들이 있습니다.에프(10). 나는 일반적으로 헛소리는 아니지만 시간 낭비 이메일은 그만한 가치가 있습니다.
밝은 별

1
@TrevorAlexander이 질문이 시간 낭비라고 생각되면 왜 대답해야합니까? 분명히 어떤 사람들은 그것을 흥미롭게 생각합니다.
jwg

누군가가 인터넷에 잘못 했기 때문에 @jwg . ;)
밝은 별

답변:


23

적합 모델과 같은 회귀 모델 lm()은 기본 데이터 생성 프로세스가 확률 적이라고 가정합니다 . 모델링하려는 규칙이 결정적 이라고 가정합니다 . 따라서 수행하려는 작업과 수행하려는 작업간에 불일치가 있습니다.

결정적 데이터에 가장 간단한 기능을 찾거나 맞추기 위해 명시 적으로 설계된 다른 소프트웨어 (즉, R이 아님 ) 가 있습니다 (예 : Eureqa ). 이를위한 R 패키지가있을 수 있지만 (모르지만) R은 확률 데이터의 통계적 모델링을위한 것입니다.

lm()당신에게 주신 대답 은 합리적으로 보이며 옳을 수 있습니다. 그러나 나는이 문제가 결정 론적으로 이해되어야한다는 것을 암시하는 맥락을 모았다. 이것이 사실이 아니고 적합치가 합리적인지 궁금한 경우 두 가지 극단적 인 데이터 요소가 회귀선 위에 있고 중간 데이터가 모두 그 아래에 있다는 것을 알 수 있습니다. 이것은 잘못 지정된 기능 형태를 나타냅니다. 이것은 잔차 대 적합도 ( plot(lm1, which=1) 에서도 볼 수 있습니다 .

여기에 이미지 설명을 입력하십시오

@AlexWilliams에 맞는 모델은 훨씬 나아 보입니다.

여기에 이미지 설명을 입력하십시오


17
+1 잔차 줄거리는 이야기를 놓칠 수없는 방식으로 이야기합니다. 실제로 OP의 '선형 모양'이 종종 오도되는 이유를 보여줍니다. 전환점에 근접하지 않은 몇 개의 점만 보면 많은 곡선 함수가 '거의 직선'으로 보일 수 있습니다. 그것이 선형이라고 생각한다면, 그 라인을 꺼내서 남은 것을보십시오!
Glen_b-복지 주 모니카

1
매우 유용한 정보! 감사합니다, 정말 고맙습니다
Brett Phinney

1
이것은 확률 론적 데이터와 결정 론적 데이터의 구별과는 전혀 관련이 없습니다. 선형 회귀는 결정적 데이터가 선형 인 경우 적합하고 추정합니다. 기본 모델이 2 차인 경우 확률 데이터에 대해 잘 예측하지 못합니다.
jwg

3
@jwg : 그것과 관련이 있습니다. 아니면 항상 순서에 맞습니까? 와 관찰 (1)낮은 차수 다항식이없는 경우 차수 다항식?
Scortchi-Monica Monica 복원

나는 그가 완벽한 몸매를 찾고 있다고 생각하지 않습니다. 그는 외삽 된 가치가 왜 그렇게 멀리 떨어져 있는지 이해하려고 노력하고 있습니다.
jwg

22

추세는 선형이 아닌 2 차입니다. 시험:

lm1 <- lm(b~I(a^2), data=data)

업데이트 : 여기 코드가 있습니다.

data <- data.frame(a=c(3,4,5,6,7),b=c(18,32,50,72,98))
lm1 <- lm(b~I(a^2), data=data)
new.data <- data.frame(a=c(10,20,30))
predict(lm1, newdata = new.data, interval='prediction')

그리고 출력 :

   fit  lwr  upr
1  200  200  200
2  800  800  800
3 1800 1800 1800

이 대답은 나에게 조금 원형 인 것 같습니다. 문제의 요점은 이차 행동을 인식하는 것입니다. 2 차 거동이 지정되면 선형 회귀가 계수를 찾을 수 있음을 올바르게 지적합니다. 그러나 실제로이 답변의 첫 번째 줄을 기록 할 때까지 이미 중요한 분석을 수행 했습니다.
whuber

5
@whuber-문제는 선형 모델이 실패하는 이유입니다. 함수형이 선형이 아니고 2 차이 기 때문에 실패합니다. 나는 대답을 간단하고 요점으로하고 싶었다. Gung의 답변은 세부 사항을 다루는 데 도움이되며 잔차 그림을 사용하여 더 나은 모델을 만드는 방법을 보여줍니다. (나는 방금 펜과 종이에 썼다.) 나는 그의 대답이 더 자세하고 완전하며 그것을 찬성했다는 데 동의한다.
Alex Williams

13

Alex Williams와 gung의 훌륭한 답변을 추가하는 것을 망설이고 있지만 더 나아가 야 할 점이 있습니다. 이 질문은 '선형 회귀'와 '선형 모델'이라는 구를 사용하며, 아마도 그것들이 같은 의미임을 암시합니다. 그러나 '선형 회귀'의 일반적인 의미는 '선형'이 '모수 의 선형'을 의미하는 CLRM ( Classical Linear Regression Model )을 나타냅니다 . 이것은 독립 변수가 아닌 매개 변수의 조건입니다. 따라서 다음과 같은 이차 모형 :

와이나는=β1+β2엑스나는2

매개 변수에서 선형이기 때문에 CLRM의 의미에서 여전히 선형입니다. β1β2. 대조적으로, 모델은 :

와이나는=β1+β2엑스나는

매개 변수가 선형이고 엑스나는. 오히려 그것을 선형 모델을 호출하는 대신,보다 정확한 문장은 매개 변수의 선형이다 함수 형태의 선형 있습니다. 따라서 시리즈는 2 차 함수 형태 (Alex Williams에 의해 표시됨)를 갖지만 선형 함수 형태를 가진 모델이 아니라면 매개 변수가 선형 인 모델로 분석 할 수 있다고 말할 수 있습니다.


1
나는 항상 이것을 기억하는 데 어려움을 겪고 있습니다. 이것은 다른 답변에 큰 도움이됩니다.
naught101
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.