왜 치우친 데이터를 정규 분포로 변환합니까?


15

나는 Kaggle ( House Price on Human Price 's Kernel on House Price : Advance Regression Techniques ) 에서 주택 가격 경쟁의 해결책을 겪고 있었고이 부분을 보았습니다 .

# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew

skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index

train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])

기울어 진 분포를 정규 분포로 변환해야 할 필요성이 무엇인지 잘 모르겠습니다. 누군가가 자세히 설명 할 수 있습니까?

  1. 왜 여기서 이루어지고 있습니까? 또는 어떻게 도움이 되나요?
  2. 이것이 기능 스케일링과 어떻게 다릅니 까?
  3. 기능 엔지니어링에 필요한 단계입니까? 이 단계를 건너 뛰면 어떻게됩니까?

2
따라서 잔차는 가우시안 (평균화에 의해 상쇄 될 수 있음)이고 분산이 안정적이며 옵티마이 저가 수렴을 촉진 하도록 사전 조건화 합니다. en.wikipedia.org/wiki/Power_transform
Emre

답변:


12

계수를 해석 할 수 있습니다. 즉, "변수 을 1 씩 늘리면 평균과 다른 모든 것이 같으면 Yβ 1 씩 증가해야합니다 "와 같은 것을 말할 수 있습니다 .엑스1와이β1

계수를 해석 할 수있게하기 위해 선형 회귀는 많은 것을 가정합니다.

이러한 것 중 하나는 다중 공선 성이 아닙니다. 즉, 변수가 서로 상관되어서는 안됩니다.엑스

다른 하나는 Homoscedasticity 입니다. 모델 커밋 오류는 동일한 분산을 가져야합니다. 즉, 선형 회귀가 낮은 값에 대해서는 작은 오류를 발생시키지 않고 높은 X 값에 대해서는 큰 오류를 발생시키지 않도록해야합니다 . 즉, 당신이 예측하는 것 사이의 차이 Y를 하고 진정한 값 Y가 일정해야한다. Y 가 가우스 분포를 따르는 지 확인하면 됩니다. (증거는 매우 수학적입니다.)엑스엑스와이^와이와이

데이터에 따라 가우시안으로 만들 수 있습니다. 전형적인 변환은 역, 로그 또는 제곱근을 취합니다. 다른 많은 것들도 물론 존재하며, 모두 데이터에 달려 있습니다. 데이터를 확인한 다음 히스토그램을 수행하거나 Shapiro-Wilk 테스트와 같은 정규성 테스트를 실행 해야 합니다.

이것들은 모두 편견 추정기 를 만드는 기술 입니다. 다른 사람들이 말했듯이 수렴과 관련이 있다고 생각하지 않습니다 (때로는 데이터를 정규화하고 싶을 수도 있지만 다른 주제입니다).

계수를 해석하거나 모형에서 통계 검정을 사용하려는 경우 선형 회귀 가정을 따르는 것이 중요합니다. 그렇지 않으면 잊어 버리십시오.

와이^와이2와이normalize


3

여기에 치우친 데이터는 1을 추가하고 (0이 로그가 정의되지 않은 상태에서 0이 1로 변환되도록 추가됨) 자연 로그를 취하여 정규화됩니다. 데이터는 제곱근이나 역수 또는 대수를 취하는 것과 같은 변환 기술을 사용하여 거의 정규화 할 수 있습니다. 이제 왜 필요한가? 실제로 데이터의 많은 알고리즘은 데이터 과학이 정상이라고 가정하고이를 가정하여 다양한 통계를 계산합니다. 따라서 데이터가 정상에 가까울수록 가정에 더 적합합니다.


3
여기서 알고리즘은 기울기 강화 및 올가미 회귀입니다. 이 답변 이이 두 알고리즘과 어떻게 관련이 있는지 보여 주면 더 도움이 될 것이라고 생각합니다.
oW_

내 관점에서 볼 때, 모델이 선형 회귀인지 또는 의사 결정 트리 (이상치에서 견고 함)인지 훈련 할 때 데이터가 치우치면 모델에서 데이터에서 적절한 패턴을 찾기가 어려워 져 비뚤어진 데이터를 만들어야합니다. 정상 또는 가우시안으로.
Goldi Rana

1

데이터 과학은 하루가 끝날 때의 통계 일 뿐이며 통계의 주요 가정 중 하나는 중앙 한계 정리 입니다. 따라서이 단계는 일부 후속 단계에서이를 사용하는 통계 기술을 사용 하기 때문에 수행 됩니다.


1
정리는 가정이 아닙니다. 중앙 한계 정리 (Central Limit Theorem)는 실제로 개별 랜덤 변수가 정규 분포를 따르지 않더라도 독립 랜덤 변수의 평균이 대략 정규 분포되어 있음을 보장합니다 .
Elias Strehle

1
이것은 매우 잘못된 추론 체인 중 하나입니다. "-사람들이 사과를 먹기 전에 껍질을 벗기는 것을 보았습니다. 왜?-아, 사과가 과일이고 주요 과일 중 하나가 오렌지이고 항상 오렌지 껍질을 벗기고 있기 때문입니다.".
ayorgo 2016 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.