왜 우리는 사용할 수 없습니다


10

종속 변수 가진 선형 회귀 모델이 있다고 가정 합니다. 우리는 찾을 . 이제 우리는 또 다른 회귀를 수행하지만 이번에는 에서 찾습니다 . 어떤 모델이 더 적합한 지 알기 위해 를 모두 비교할 수 없다고 들었습니다 . 왜 그런 겁니까? 나에게 주어진 이유는 우리가 다른 양의 변수 (다른 의존성 변수)를 비교하기 때문입니다. 이것이 충분한 이유인지 확실하지 않습니다.와이아르 자형와이2로그(와이)아르 자형로그(와이)2아르 자형2

또한 이것을 공식화하는 방법이 있습니까?

도움을 주시면 감사하겠습니다.


1
나는 이것이 Cross Validated에서 전에 논의되었을 것이라고 생각합니다. 비슷한 스레드를 철저히 겪어 보셨습니까? 또한 다른 종속 변수 (GDP와 유가 등) 또는 같은 변수의 변형 (GDP와 GDP 성장) 또는 둘 다에 관심이 있습니까?
Richard Hardy

@RichardHardy 나는 몇 가지를 찾았지만 내 질문에 접했다고 생각합니다. 다음과 같이 : stats.stackexchange.com/questions/235117/… 대답은 예라고 말하고 실제로 이유를 설명하지는 않습니다.
바다에있는 노인.

@RichardHardy 나는 종속 변수의 변환에 관심이 있습니다.
바다에있는 노인.

1
아르 자형2비교는 중첩 모델간에 만 의미가 있습니다.
LVRao

@LVRao 귀하의 의견에 감사드립니다. 왜 그래야만하지?
바다에있는 노인.

답변:


8

"다른 수량"은 설명이 많지 않기 때문에 좋은 질문입니다.

사용에주의해야 할 두 가지 중요한 이유가 있습니다 아르 자형2이러한 모델을 비교하려면 : 너무 조잡하고 ( 실제로 적합도를 평가하지는 않음 ) 적어도 하나의 모델에 부적합합니다. 이 답변은 두 번째 문제를 해결합니다.


이론적 치료

아르 자형2모형 잔차의 분산과 반응의 분산을 비교합니다. 분산은 적합치에서 평균 제곱 추가 편차입니다. 따라서 우리는 이해할 수 있습니다아르 자형2 응답의 두 가지 모델을 비교할 때 와이.

"기본"모델

(1)와이나는=μ+δ나는

어디 μ 매개 변수 (이론적 평균 반응)이며 δ나는 평균이 0이고 공통 분산이 각각 독립적 인 무작위 "오류" τ2.

선형 회귀 모델 은 벡터를 소개합니다엑스나는 설명 변수로 :

(2)와이나는=β0+엑스나는β+ε나는.

β0 그리고 벡터 β매개 변수 (절편 및 "경사")입니다. 그만큼ε나는 다시 제로 평균과 공통 분산을 갖는 독립적 인 랜덤 에러 σ2.

아르 자형2 분산 감소 추정 τ2σ2원래 분산과 비교 τ2.

대수를 취하고 최소 제곱을 사용하여 모형에 적합 하면 암시 적으로 형식의 관계를 비교하는 것입니다

(1a)로그(와이나는)=ν+ζ나는

형태 중 하나로

(2a)로그(와이나는)=γ0+엑스나는γ+η나는.

이것들은 모델과 같습니다 (1)(2)그러나 로그 응답과 함께. 그러나 처음 두 모델과 동일하지 않습니다. 예를 들어(2) 줄 것이다

와이나는=특급(로그(와이나는))=특급(γ0+엑스나는γ)특급(η나는).

오류 조건 특급(η나는)이제 기본 관계를 하십시오와이나는=특급(γ0+엑스나는γ). 결과적으로 응답의 분산은 다음과 같습니다.

바르(와이나는)=특급(γ0+엑스나는γ)2바르(이자형η나는).

차이는 엑스나는. 그건 모델이 아니야(2)분산이 모두 상수와 같다고 가정합니다. σ2.

일반적 으로 이러한 모델 세트 중 하나만 데이터에 대한 합리적인 설명 일 수 있습니다. 두 번째 세트 적용(1)(2) 처음 설정했을 때 (1)(2)은 좋은 모델이거나, 두 번째가 좋은 첫 번째 모델은 비선형이 분산 데이터 세트로 작업하기 때문에 선형 회귀에는 적합하지 않습니다. 이러한 상황 중 하나에 해당하는 경우 더 나은 모델이 더 큰 것으로 보일 수 있습니다.아르 자형2. 그러나 경우 모두 어떻습니까? 우리는 여전히 더 큰 것을 기대할 수 있습니까아르 자형2 더 나은 모델을 식별 할 수 있도록

분석

어떤 의미에서 적절한 모델이 없다면, 우리는 세 번째 모델을 찾아야하기 때문에 어떤 의미에서 이것은 좋은 질문이 아닙니다. 그러나 우리 이전의 문제는아르 자형2우리가이 결정을 내 리도록 도와주었습니다. 또한 많은 사람들 이 관계 의 형태 에 대해 먼저 생각합니다.엑스와이회귀 오차의 특성에 대해 염려하지 않고 선형적이고 대수적이며 다른 것입니까? ε나는 또는 η나는. 따라서 모델이 관계를 올바르게 갖지만 오류 구조에 대해서는 잘못되거나 그 반대 의 상황을 고려하십시오 .

이러한 모델 (일반적으로 발생)은 지수 관계에 가장 적합한 제곱입니다.

(삼)와이나는=특급(α0+엑스나는α)+θ나는.

이제 대수 와이선형 함수입니다엑스에서와 같이 (2), 하지만 오류 용어θ나는에서처럼 추가(2). 그런 경우는아르 자형2 관계가 잘못된 모델을 선택하도록 오도 할 수 있습니다. 엑스와이.

모형의 삽화는 여기 있습니다 (). 있다300 에 대한 관찰 엑스나는 (1- 벡터 사이에 균등하게 분포 1.01.6). 왼쪽 패널은 원본을 보여줍니다(엑스,와이) 오른쪽 패널에는 (엑스,로그(와이))변환 된 데이터. 빨간색 점선은 실제 기본 관계를 나타내는 반면, 파란색 실선은 최소 제곱합을 나타냅니다. 데이터와 실제 관계는 두 패널에서 동일합니다. 모델과 적합치 만 다릅니다.

산점도

오른쪽의 로그 응답에 대한 적합도는 명확합니다. 실제 관계와 거의 일치하며 선형입니다. 왼쪽의 원래 반응에 대한 적합성은 분명히 나빠집니다. 진정한 관계는 지수 적이지만 선형입니다. 불행하게도, 그것은아르 자형2: 0.70 에 비해 0.56. 그래서 우리는 믿지 말아야합니다아르 자형2우리를 더 나은 모델로 인도합니다. 그래서 우리는 때에도 적합에 만족해서는 안됩니다아르 자형2 "높음"이며 많은 응용 프로그램에서 0.70 실제로 높은 것으로 간주됩니다).


또한,이 모델을 평가하는 더 좋은 방법은 적합도 검정 (오른쪽에 로그 모델의 우월성을 나타냄)과 잔차의 정상성에 대한 진단 플롯 (두 모델의 문제를 강조 표시)을 포함합니다. 이러한 평가는 자연스럽게 가중 최소 제곱에 적합합니다.로그(와이) 또는 직접 모델링 () 최대 가능성 또는 비선형 최소 제곱 법을 사용하여 적합해야합니다.


R ^ 2에 대한 비판은 불공평합니다. 모든 도구는 사용법을 잘 알고 있어야합니다. 위의 예에서 R ^ 2는 올바른 메시지를 제공합니다. R ^ 2는 더 나은 신호대 잡음비를 선택하는 방식입니다. 물론 완전히 다른 스케일을 가진 두 개의 그래프를 나란히 놓을 때 분명하지 않습니다. 실제로 왼쪽의 신호는 노이즈 편차에 비해 매우 강합니다.
Cagdas Ozgenc

@Cagdas 본질적으로 모순되는 메시지를 제공하는 것 같습니다. 두 음모는 불가피하게 두 가지 다른 척도로 표시되어 있습니다. 하나는 원래 반응을 나타내고 다른 하나는 로그를 나타냅니다. 따라서이 불가피한 사실 때문에 무언가가 "명확하지 않다"고 주장하는 것은 귀하의 사례를 뒷받침하지 않는 것 같습니다. 이 답변이 "불공평하다"고 불평하는 것은 내가 제공 한 모델의 명시 적 분석을 고려할 때 실제로 견디지 못한다.
whuber

내가 말하는 것에 모순이 없습니다. R ^ 2는 더 높은 신호대 잡음비를 선택합니다. 그것이하는 일입니다. 다른 것으로 바꾸려고 시도하고 작동하지 않는다고 주장하는 것은 명백히 잘못입니다. R ^ 2에 대한 모든 비판은 다른 반응 변수에 적용될 때 다른 적합도 지표에도 적용되지만 어떤 이유로 R ^ 2가 희생양으로 선택됩니다.
Cagdas Ozgenc

@Cagdas,이 분석의 어떤 부분을 "스케이프 가이 팅"으로 보는지 알고 싶습니다. 아르 자형2. 내가 알 수있는 한 그것은 무엇에 대한 열정적이고 기술적으로 올바른 평가입니다아르 자형2달성 할 수 없으며 수행 할 수 없습니다. 사실 예제에서 더 나은 모델 (내가 설명한 의미에서 대부분의 사람들이 "적합성 (Goodness of Fit)"의 의미와 일치하는 방식)을 명시 적으로 보여줄 때 "신호 대 잡음비"를 참조하는 것이 얼마나 적절한 지 알 수 없습니다. 더 나쁜아르 자형2.
whuber

2
당신의 도움 whuber에 감사드립니다. 늦게 받아 들여서 죄송합니다. 최근에 자유 시간이 많지 않았습니다. ;)
바다의 노인.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.