선형 모형 이분산성


10

다음 선형 모델이 있습니다.

선형 모형 잔차 관찰 분포

잔차 이분산성을 해결하기 위해 과 같은 종속 변수에 로그 변환을 적용하려고 시도했지만 잔차 에 동일한 팬 아웃 효과가 여전히 표시됩니다. DV 값은 상대적으로 작기 때문에이 경우에는 로그를 가져 오기 전에 +1 상수 더하기가 적절하지 않을 수 있습니다.log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

예측 오차와 분산을 개선하기 위해 변수를 어떻게 변환 할 수 있습니까?

답변:


11

당신의 목표는 무엇입니까? 우리는 이분산성이 계수 추정치를 편향시키지 않는다는 것을 알고있다. 표준 오류 만 잘못합니다. 따라서 모델의 적합도에만 관심이 있다면 이분산성은 중요하지 않습니다.

가중 최소 제곱을 사용하면 보다 효율적인 모델 ( , 표준 오차가 더 작은 모델)을 얻을 수 있습니다 . 이 경우 각 관측치에 대한 분산을 추정하고 관측치 별 분산의 역수로 각 관측치에 가중치를 부여해야합니다 (에 대한 weights인수 인 경우 lm). 이 추정 절차는 추정치를 변경합니다.

또는 추정값을 변경하지 않고 이분산성에 대한 표준 오차를 수정하기 위해 강력한 표준 오차를 사용할 수 있습니다. 를 들어 R응용 프로그램 패키지를 참조하십시오 sandwich.

로그 변환을 사용하면 이분산성을 교정 할 수있는 좋은 방법이 될 수 있지만 모든 값이 양수이고 새 모델이 요청한 질문과 관련하여 합리적인 해석을 제공하는 경우에만 가능합니다.


나의 주요 목표는 오류를 줄이는 것입니다. 가중 최소 제곱을 살펴 봐야하지만, 더 높은 적합치에 대해 잔류 분산이 얼마나 규칙적으로 증가 하는지를 고려할 때 DV 변환이 올바른 단계라는 인상을 받았습니다.
Robert Kubrick

"오류 감소"는 무엇을 의미합니까? 평균 오류는 0입니다. 선택한 창에서 플롯을 보더라도 평균은 0입니다.
Charlie

나는 모델의 예측을 향상시키는 것을 의미합니다. 즉, 특히 더 높은 적합치에 대해 전체 절대 오차 및 오차 분산이 줄어 듭니다.
Robert Kubrick

1
이분산성을 감소시키는 방식으로 를 변환 할 수 있다고 가정하십시오 . 를 예측 하려면이 변환의 역을 적용하여 이분산성 문제를 다시 발생시켜야합니다. 관심있는 모든 것이 계수이면 변환은 괜찮지 만 를 예측하려고하면 도움이되지 않습니다 . yyy
Charlie

1
나는 당신이 변환 된 를 예측하고 싶지 않다고 추측하고 있습니다 . 효과적으로, 변환은 원래 스케일에서 사이의 거리를 줄여야합니다 . 변환 된 값에서 폭이 비슷한 변환 된 스케일에서 예측 간격을 만들지 만 변환을 취소하면 예측 간격이 원래 스케일로 확장됩니다. yyyy
Charlie

4

Box-Cox 변환 을 시도하고 싶습니다 . 전원 변환의 버전입니다.

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
여기서 는 데이터의 기하 평균입니다. 반응 변수의 변환으로 사용되는 경우 공칭 역할은 데이터를 정규 분포에 더 가깝게 만드는 것이며, 왜도는 데이터가 비정규 적으로 보일 수있는 주요 이유입니다. 산점도에 대한 내 생각은 설명 및 반응 변수에 적용해야한다는 것입니다.y˙

일부 이전 토론에는 제곱근, 로그 등과 같은 일반적인 변형 이외의 다른 정규화 변환이 일반적으로 사용되는 것은 무엇입니까? 그리고 어떻게 제로를 포함하는 음이 아닌 데이터를 변환해야합니까? . R 에서 통계 절차를 검색하는 방법에서 R 코드를 찾을 수 있습니까?

계량 경제학자들은 이분산성 (heteroskedasticity)에 강건한 추론 적 절차를 설정하는 것에 대해 Halbert White (1980)의 정식 작업 이후 이분산성에 대한 걱정을 중단했다 (실제로는 통계 학자 F. Eicker (1967)에 의해 이전 이야기를 다시 언급했다). 방금 다시 쓴 Wikipedia 페이지 를 참조하십시오 .


감사합니다.이 시점에서 나는 전력 변환을 적용할지 아니면 강력한 회귀를 사용하여 오류를 줄이고 예측 간격을 향상 시킬지에 대해 토론하고 있습니다. 두 기술이 어떻게 비교되는지 궁금합니다. 또한 변환을 사용하면 예측 값을 역변환해야합니다. 그것은 명백한 공식처럼 보이지 않습니까?
Robert Kubrick

강력한 회귀로 인해 @StasK가 설명하는 강력한 표준 오류를 의미하지만 잔차 / 오류는 전혀 변경되지 않습니다. 계수는 OLS와 정확히 동일하며 정확히 동일한 잔차를 제공합니다. 계수의 표준 오차는 변경되며 일반적으로 OLS SE보다 큽니다. 계수에 대해 올바른 표준 오차를 사용하므로 예측 간격이 향상되었습니다 (OLS의 오차에 비해 더 클 수 있음). 를 예측하는 것이 목표라면 선형 모델을 고수하고 내 대답에서 언급 한 기술을 사용해야합니다. y
Charlie

@Charlie 나는 en.wikipedia.org/wiki/Robust_regression을 의미한다 . 나는 이것에 익숙하지 않지만 강력한 회귀 분석이 추정 기술을 변경한다는 것을 이해하므로 잔차가 달라야합니다.
Robert Kubrick

맞습니다. 이것은 다른 방법이며 추정치를 변경합니다. 강력한 회귀가 특이 치가있는 경우에 더 적합하다고 생각합니다. 사용하기로 결정한 강력한 회귀 버전과 특정 데이터 세트에 따라 OLS에 비해 더 넓은 신뢰 구간을 얻을 수 있습니다.
Charlie

1

시계열 데이터 내의 종속 변수와 관련된 이분산성 문제에 대한 매우 간단한 솔루션이 있습니다. 이것이 종속 변수에 적용 가능한지 모르겠습니다. 공칭 Y를 사용하는 대신 이전 기간 동안의 현재 기간에서 Y의 % 변화로 변경한다고 가정합니다. 예를 들어, 명목 Y는 가장 최근 기간에 14 조 달러의 GDP라고 가정 해 봅시다. 대신 가장 최근의 기간 동안의 GDP 변화를 계산하십시오 (2.5 %라고합시다).

공칭 시계열은 항상 증가하고 항상 이분법 적입니다 (값의 증가로 인해 오차의 변화는 시간이 지남에 따라 증가합니다). 종속 변수가 거의 고정되어 있기 때문에 변화율 (%)은 일반적으로 동 분산 적입니다.


내가 사용 하는 값은 이전 기간의 시계열 % 변화입니다. Y
Robert Kubrick

놀랍습니다. 일반적으로 % 변화 변수는 이분법 적이 지 않습니다. 우리가 생각하는 것보다 잔차가 덜 이질적인지 궁금합니다. 그리고 근본적인 문제는 특이 치 중 하나입니다. 0.15 % 범위에서 4 개 또는 5 개의 관측 값을 보면 제거하면 전체 그래프가 덜 이질적으로 보일 수 있습니다. 또한 다른 사람들이 이분산성을 언급 했으므로 회귀 계수가 손상되지 않고 신뢰 구간 및 관련 표준 오류 만 손상됩니다. 그러나 그래프를 보면 CI가 그다지 영향을받지 않는 것 같습니다. 그리고 여전히 유용 할 수 있습니다.
Sympa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.