왜 왜곡 된 데이터가 모델링에 적합하지 않습니까?


17

사람들이 변수 예측 (예측 변수와 반응 변수 모두)에 대해 이야기 할 때 대부분의 경우 로그 왜곡, 상자 및 콕스 변환 등의 데이터 왜곡을 처리하는 방법에 대해 논의합니다. 내가 이해할 수없는 것은 왜도를 제거하는 것이 일반적인 모범 사례로 간주됩니까? 왜도는 트리 기반 모델, 선형 모델 및 비선형 모델과 같은 다양한 모델의 성능에 어떤 영향을 줍니까? 왜도에 의해 영향을받는 모델의 종류와 이유는 무엇입니까?


3
합리적인 답변을 제공하기 위해 a) 데이터, b) 모델링 및 c) 모델의 의미를 명확히하십시오. 평소와 같이 주요 질문은 당신이하고 싶은 입니다. 그러나 무엇 ?
cherub

관련 인용을 추가하고 소유권 주장을 확대하기 위해 답변을 업데이트했습니다.
Tavrock

답변:


11

tFσ2

보다 강력한 1 모델 (예 : Bartlett의 테스트 대신 Levine 테스트 사용)이 있지만 다른 배포판과 잘 작동하는 대부분의 테스트 및 모델 에서는 작업중인 배포판을 알고 일반적으로 단일 배포판에만 적합해야합니다. 게다가.

NIST 엔지니어링 통계 핸드북 을 인용하려면 :

회귀 모델링에서는 종종 다음 두 가지 목표를 달성하기 위해 변환을 적용합니다.

  1. 오차에 대한 분산 가정의 동질성을 만족시킵니다.
  2. 피팅을 최대한 선형화합니다.

이 두 목표가 상충 될 수 있다는 점에서 약간의주의와 판단이 필요합니다. 우리는 일반적으로 균질 분산을 먼저 달성 한 다음 적합도를 선형화하려는 문제를 해결합니다.

그리고 다른 위치에

반응 변수와 단일 독립 변수를 포함하는 모델은 다음과 같은 형식을 갖습니다.

Yi=f(Xi)+Ei

YXfE

  1. 무작위 도면 (즉, 독립적);
  2. 고정 분포에서;
  3. 고정 된 위치; 과
  4. 고정 변형.

또한 피팅 모형의 경우 일반적으로 고정 분포가 정상이고 고정 위치가 0이라고 가정합니다. 좋은 모델의 경우 고정 변형은 가능한 한 작아야합니다. 피팅 모델의 필수 구성 요소는 오류 구성 요소에 대한 이러한 가정을 검증하고 오류 구성 요소의 변동이 충분히 작은 지 평가하는 것입니다. 히스토그램, 지연 플롯 및 정규 확률도는 오차 성분에 대한 고정 분포, 위치 및 변동 가정을 확인하는 데 사용됩니다. 반응 변수와 예측 값 대 독립 변수의 도표를 사용하여 변동이 충분히 작은 지 여부를 평가합니다. 잔차 대 독립 변수 및 예측 된 값의 도표를 사용하여 독립 가정을 평가합니다.

위의 가정과 관련하여 적합의 유효성과 품질을 평가하는 것은 모델 적합 과정에서 절대적으로 중요합니다. 적절한 모델 검증 단계가 없으면 적합하다고 간주되지 않아야합니다.


  1. 주장에 대한 (약어) 인용 :
    • Breyfogle III, 포레스트 W. 식스 시그마 구현
    • 피즈 덱, 토마스 식스 시그마 핸드북
    • Montgomery, Douglas C. 통계 품질 관리 소개
    • 에드 겁쟁이, Willaim H와 Bakerjan, 라몬. 툴 및 제조 엔지니어 핸드북 : 데스크탑 에디션

귀하의 답변 Tavrock에 감사드립니다. 그러나 내가 아는 한, F-test의 ANOVA 또는 t-test는 의사 결정 트리에서 사용되지 않습니다 (적어도 분할을 수행하기 위해). 또한 선형 회귀 분석에서 분포 형태에 관한 대부분의 가정은 오차와 관련이 있습니다. 오류가 왜곡되면 이러한 테스트가 실패합니다. 따라서 예측 변수의 왜곡이 이러한 모형의 예측 품질에 영향을 미치지 않아야 함을 의미합니다. 내가 틀렸다면 정정 해주세요. 다시 감사합니다 !!
saurav shekhar

1
질문을 명확하게 설명 할 수 있습니까? 반응 변수 변환 또는 예측 변수 변환 또는 둘 다에 대해 알고 싶습니까?
Groovy_Worm

1
@Groovy_Worm 고맙습니다. 이 질문에서 나는 예측 변수와 반응 변수 모두에 대해 우려하고 있습니다.
saurav shekhar

일반화 된 선형 모델링 (GLM)을 찾고있을 것 입니다. 선형 회귀 분석에서는 일반적으로 종속 변수가 랜덤 변수 Xe 에 따라 가우스 분포를 따르는 것으로 가정합니다 . GLM을 사용하면 종속 변수, 독립 변수 (지정된 링크 함수 를 통해)에 대한 (거의) 모든 유형의 분포를 허용하도록 유니버스를 확장 할 수 있습니다 .
Chris K

7

파라 메트릭 모델의 경우에 대부분 해당됩니다. Tavrock이 말했듯이, 왜곡되지 않은 응답 변수를 가지면 가우스 추정값이 가우스 추정값보다 훨씬 빨리 수렴하기 때문에 가우시안 근사값 추정이 더 잘 작동합니다. 즉, 데이터가 치우친 경우 데이터를 변환하면 적절한 신뢰 구간과 매개 변수에 대한 테스트를 사용하기 위해 가장 작은 데이터 세트를 만들게됩니다 (예측 데이터는 대칭이더라도 데이터를 예측할 수 없기 때문에 예측 구간은 여전히 ​​유효하지 않습니다) 일반적으로 매개 변수 추정치 만 가우시안으로 수렴됩니다.

이 전체 연설은 응답 변수의 조건부 분포에 관한 것입니다. 오류에 대해 말할 수 있습니다. 그럼에도 불구하고 조건없는 분포를 볼 때 비뚤어진 것처럼 보이는 변수가 있으면 조건부 분포가 치우친 것일 수 있습니다. 데이터에 모델을 맞추면 마음이 맑아집니다.

의사 결정 트리에서 먼저 한 가지를 지적하겠습니다. 왜곡 된 설명 변수를 변환 할 필요가 없으며, 단조 함수는 변경되지 않습니다. 이것은 선형 모델에는 유용하지만 의사 결정 트리에는 유용하지 않습니다. CART 모델은 분산 분석을 사용하여 스핏을 수행하며, 분산은 특이 치 및 치우친 데이터에 매우 민감하므로 응답 변수를 변환하면 모델 정확도가 크게 향상 될 수 있습니다.


2

왜도는 나쁜 것입니까? 대칭 분포 (일반적으로 항상 그런 것은 아님) : 예를 들어, Cauchy 분포가 아닌 경우)는 중간, 모드 및 평균이 서로 매우 가깝습니다. 따라서 모집단 의 위치측정 하려면 중앙값, 모드 및 평균을 서로 가깝게 유지하는 것이 유용합니다.

ln0=

www에서 유출 된 25 달러 소득의 예.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

첫 번째 열의 왜도는 0.99이고 두 번째 열의 차이는 -0.05입니다. 첫 번째 열은 정상이 아니며 (Shapiro-Wilk p = 0.04) 두 번째 열은 정상이 아닙니다 (p = 0.57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

exp[meanln(k$)] 

분명히, 여기서 로그 노멀은 더 나은 모델이고 평균 로그는 우리에게 더 나은 위치 측정을 제공합니다. 이것이 완전히 알려져 있지는 않지만 잘 알려진 것은 "5 자리 급여를받을 것으로 예상합니다"라는 문구로 설명됩니다.


1

나는 이것이 좋은 속성으로 인해 가우시안으로 되돌아가는 전통의 인공물이라고 생각합니다.

그러나 여러 가지 다른 분포 모양과 형태를 포함하는 일반화 된 감마와 같은 훌륭한 분포 대안이 있습니다.


1

다른 독자들이 말했듯이, 데이터로 달성하려는 것에 대한 배경 지식이 도움이 될 것입니다.

그러나 중앙 한계 정리다수법칙으로 알려진 통계 영역에는 두 가지 중요한 교리가있다 . 다시 말해서, 관측치가 많을수록 데이터 세트가 평균, 중앙값 및 모드가 같은 정규 분포 에 근사 할 것으로 예상 됩니다. 많은 수의 법칙에 따르면, 관측치와 실제 값 사이의 편차는 충분한 관측치가 주어지면 결국 0으로 떨어질 것으로 예상됩니다.

따라서 정규 분포를 통해 연구원은 기본 분포를 알고있는 경우 모집단에 대해보다 정확한 예측을 할 수 있습니다.

왜도는 분포가 이로부터 벗어날 때, 즉 편차가 양 또는 음으로 비뚤어 질 수 있습니다. 그러나 중심 한계 정리는 충분히 많은 관측치가 주어지면 결과는 대략 정규 분포가 될 것이라고 주장합니다. 따라서 분포가 정상이 아닌 경우 언급 한 변환 절차를 통해 분포의 기본 구조를 변경하기 전에 항상 더 많은 데이터를 수집하는 것이 좋습니다.


0

대부분의 결과는 가우스 가정을 기반으로합니다. 분포가 치우친 경우 가우시안 분포가 없기 때문에 필사적으로 분배해야합니다.

물론 GLM을 사용해 볼 수 있습니다.


0

나는 그것이 모델링 일뿐 만 아니라 뇌가 치우친 데이터로 작업하는 데 사용되지 않는다고 생각합니다. 예를 들어 행동 금융에서 우리는 매우 낮거나 높은 확률을 추정하는 데 능숙하지 않다는 것이 잘 알려져 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.