선형 대 비선형 회귀


13

이론적으로 지수 적으로 관련된 및 값 세트가 있습니다 .yxy

y=axb

계수를 구하는 한 가지 방법은 양쪽에 자연 로그를 적용하고 선형 모형을 피팅하는 것입니다.

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

이것을 얻는 또 다른 방법은 이론적 인 시작 값 세트가 주어지면 비선형 회귀를 사용하는 것입니다.

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

두 번째 알고리즘을 적용하면 내 테스트에서 더 나은 이론 관련 결과를 볼 수 있습니다. 그러나 각 방법의 통계적 의미와 의미를 알고 싶습니다.

어느 것이 더 낫습니까?


3
비슷한 질문을 다루는 이 게시물 을 살펴보십시오 . 이 백서 도 관심 있을 수 있습니다.
COOLSerdash

5
"지수"는 일반적으로 다음과 같은 것을 의미합니다 exp(). 여기에있는 것은 전력 함수, 전력 법칙 또는 스케일링 법칙이라고합니다. 다른 이름은 의심의 여지가 없습니다. 가설 검정의 의미에서 힘과 관련이 없습니다.
Nick Cox

답변:


16

"더 나은"은 모델의 기능입니다.

혼란의 이유 중 하나는 모델의 절반 만 작성했기 때문입니다.

라고 말하면 실제로 사실이 아닙니다. 관찰 된 ya x b 와 같지 않습니다 . 그들은 오류 구성 요소가 있습니다.y=axbyaxb

예를 들어, 언급 한 두 가지 모델 (어떤 수단 으로든 가능한 유일한 모델은 아님)은 오류에 대해 완전히 다른 가정을합니다.

아마도 E에 더 가까운 것을 의미 할 것입니다 ( Y | X = x ) = a x bE(Y|X=x)=axb.

그러나 우리 는 주어진 x 에서의 기대로부터 의 변화에 ​​대해 무엇이라고 말 합니까? 그것은 중요!Yx

  • 비선형 최소 제곱 모델에 적합하면 오차가 가산적이고 오차의 표준 편차가 데이터에서 일정하다는 것을 의미합니다.

    yiN(axib,σ2)

    또는 동등하게

    yi=axib+eivar(ei)=σ2

  • 대조적으로 로그를 취하고 선형 모델에 적합하면 오류가 로그 스케일에서 가산되고 데이터에서 (로그 스케일에서) 일정하다는 것을 의미합니다. 이는 관측치의 규모에서 오차항이 곱하기 때문에 예상 값이 클 때 오차가 더 커짐을 의미합니다.

    yilogN(loga+blogxi,σ2)

    또는 동등하게

    yi=axibηiηilogN(0,σ2)

    E(η)σ2

(정규 / 대수 정규 분포를 가정하지 않고 최소 제곱을 수행 할 수 있지만 논의되는 중심 문제는 여전히 적용됩니다 ... 정규에 가까운 곳이 아니면 어쨌든 다른 오류 모델을 고려해야합니다)

따라서 가장 좋은 것은 상황을 설명하는 오류 모델의 종류에 따라 다릅니다.

yxx


9

두 모형을 모두 적합하게 만들면 잔차 세트 (Y의 관측 값과 예측 된 값 사이의 불일치)가 가우스 분포를 따른다고 가정합니다. 원시 데이터 (비선형 회귀)에 해당 가정이 적용되는 경우 로그 변환 된 값 (선형 회귀)에 대해서는 해당되지 않으며 그 반대도 마찬가지입니다.

"더 나은"모델은 무엇입니까? 모델의 가정이 데이터와 가장 밀접하게 일치하는 것.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.