사람들이 변수 예측 (예측 변수와 반응 변수 모두)에 대해 이야기 할 때 대부분의 경우 로그 왜곡, 상자 및 콕스 변환 등의 데이터 왜곡을 처리하는 방법에 대해 논의합니다. 내가 이해할 수없는 것은 왜도를 제거하는 것이 일반적인 모범 사례로 간주됩니까? 왜도는 트리 기반 모델, 선형 모델 및 비선형 모델과 같은 다양한 모델의 성능에 어떤 영향을 줍니까? 왜도에 의해 영향을받는 모델의 종류와 이유는 무엇입니까?
사람들이 변수 예측 (예측 변수와 반응 변수 모두)에 대해 이야기 할 때 대부분의 경우 로그 왜곡, 상자 및 콕스 변환 등의 데이터 왜곡을 처리하는 방법에 대해 논의합니다. 내가 이해할 수없는 것은 왜도를 제거하는 것이 일반적인 모범 사례로 간주됩니까? 왜도는 트리 기반 모델, 선형 모델 및 비선형 모델과 같은 다양한 모델의 성능에 어떤 영향을 줍니까? 왜도에 의해 영향을받는 모델의 종류와 이유는 무엇입니까?
답변:
보다 강력한 1 모델 (예 : Bartlett의 테스트 대신 Levine 테스트 사용)이 있지만 다른 배포판과 잘 작동하는 대부분의 테스트 및 모델 에서는 작업중인 배포판을 알고 일반적으로 단일 배포판에만 적합해야합니다. 게다가.
NIST 엔지니어링 통계 핸드북 을 인용하려면 :
회귀 모델링에서는 종종 다음 두 가지 목표를 달성하기 위해 변환을 적용합니다.
- 오차에 대한 분산 가정의 동질성을 만족시킵니다.
- 피팅을 최대한 선형화합니다.
이 두 목표가 상충 될 수 있다는 점에서 약간의주의와 판단이 필요합니다. 우리는 일반적으로 균질 분산을 먼저 달성 한 다음 적합도를 선형화하려는 문제를 해결합니다.
반응 변수와 단일 독립 변수를 포함하는 모델은 다음과 같은 형식을 갖습니다.
- 무작위 도면 (즉, 독립적);
- 고정 분포에서;
- 고정 된 위치; 과
- 고정 변형.
또한 피팅 모형의 경우 일반적으로 고정 분포가 정상이고 고정 위치가 0이라고 가정합니다. 좋은 모델의 경우 고정 변형은 가능한 한 작아야합니다. 피팅 모델의 필수 구성 요소는 오류 구성 요소에 대한 이러한 가정을 검증하고 오류 구성 요소의 변동이 충분히 작은 지 평가하는 것입니다. 히스토그램, 지연 플롯 및 정규 확률도는 오차 성분에 대한 고정 분포, 위치 및 변동 가정을 확인하는 데 사용됩니다. 반응 변수와 예측 값 대 독립 변수의 도표를 사용하여 변동이 충분히 작은 지 여부를 평가합니다. 잔차 대 독립 변수 및 예측 된 값의 도표를 사용하여 독립 가정을 평가합니다.
위의 가정과 관련하여 적합의 유효성과 품질을 평가하는 것은 모델 적합 과정에서 절대적으로 중요합니다. 적절한 모델 검증 단계가 없으면 적합하다고 간주되지 않아야합니다.
파라 메트릭 모델의 경우에 대부분 해당됩니다. Tavrock이 말했듯이, 왜곡되지 않은 응답 변수를 가지면 가우스 추정값이 가우스 추정값보다 훨씬 빨리 수렴하기 때문에 가우시안 근사값 추정이 더 잘 작동합니다. 즉, 데이터가 치우친 경우 데이터를 변환하면 적절한 신뢰 구간과 매개 변수에 대한 테스트를 사용하기 위해 가장 작은 데이터 세트를 만들게됩니다 (예측 데이터는 대칭이더라도 데이터를 예측할 수 없기 때문에 예측 구간은 여전히 유효하지 않습니다) 일반적으로 매개 변수 추정치 만 가우시안으로 수렴됩니다.
이 전체 연설은 응답 변수의 조건부 분포에 관한 것입니다. 오류에 대해 말할 수 있습니다. 그럼에도 불구하고 조건없는 분포를 볼 때 비뚤어진 것처럼 보이는 변수가 있으면 조건부 분포가 치우친 것일 수 있습니다. 데이터에 모델을 맞추면 마음이 맑아집니다.
의사 결정 트리에서 먼저 한 가지를 지적하겠습니다. 왜곡 된 설명 변수를 변환 할 필요가 없으며, 단조 함수는 변경되지 않습니다. 이것은 선형 모델에는 유용하지만 의사 결정 트리에는 유용하지 않습니다. CART 모델은 분산 분석을 사용하여 스핏을 수행하며, 분산은 특이 치 및 치우친 데이터에 매우 민감하므로 응답 변수를 변환하면 모델 정확도가 크게 향상 될 수 있습니다.
왜도는 나쁜 것입니까? 대칭 분포 (일반적으로 항상 그런 것은 아님) : 예를 들어, Cauchy 분포가 아닌 경우)는 중간, 모드 및 평균이 서로 매우 가깝습니다. 따라서 모집단 의 위치 를 측정 하려면 중앙값, 모드 및 평균을 서로 가깝게 유지하는 것이 유용합니다.
www에서 유출 된 25 달러 소득의 예.
k$ lnk$
28 3.33220451
29 3.36729583
35 3.555348061
42 3.737669618
42 3.737669618
44 3.784189634
50 3.912023005
52 3.951243719
54 3.988984047
56 4.025351691
59 4.077537444
78 4.356708827
84 4.430816799
90 4.49980967
95 4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514
첫 번째 열의 왜도는 0.99이고 두 번째 열의 차이는 -0.05입니다. 첫 번째 열은 정상이 아니며 (Shapiro-Wilk p = 0.04) 두 번째 열은 정상이 아닙니다 (p = 0.57).
First column Mean 90.0 (95% CI, 68.6 to 111.3) Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)
분명히, 여기서 로그 노멀은 더 나은 모델이고 평균 로그는 우리에게 더 나은 위치 측정을 제공합니다. 이것이 완전히 알려져 있지는 않지만 잘 알려진 것은 "5 자리 급여를받을 것으로 예상합니다"라는 문구로 설명됩니다.
다른 독자들이 말했듯이, 데이터로 달성하려는 것에 대한 배경 지식이 도움이 될 것입니다.
그러나 중앙 한계 정리 와 다수 의 법칙으로 알려진 통계 영역에는 두 가지 중요한 교리가있다 . 다시 말해서, 관측치가 많을수록 데이터 세트가 평균, 중앙값 및 모드가 같은 정규 분포 에 근사 할 것으로 예상 됩니다. 많은 수의 법칙에 따르면, 관측치와 실제 값 사이의 편차는 충분한 관측치가 주어지면 결국 0으로 떨어질 것으로 예상됩니다.
따라서 정규 분포를 통해 연구원은 기본 분포를 알고있는 경우 모집단에 대해보다 정확한 예측을 할 수 있습니다.
왜도는 분포가 이로부터 벗어날 때, 즉 편차가 양 또는 음으로 비뚤어 질 수 있습니다. 그러나 중심 한계 정리는 충분히 많은 관측치가 주어지면 결과는 대략 정규 분포가 될 것이라고 주장합니다. 따라서 분포가 정상이 아닌 경우 언급 한 변환 절차를 통해 분포의 기본 구조를 변경하기 전에 항상 더 많은 데이터를 수집하는 것이 좋습니다.