나는 Kaggle ( House Price on Human Price 's Kernel on House Price : Advance Regression Techniques ) 에서 주택 가격 경쟁의 해결책을 겪고 있었고이 부분을 보았습니다 .
# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew
skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index
train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])
기울어 진 분포를 정규 분포로 변환해야 할 필요성이 무엇인지 잘 모르겠습니다. 누군가가 자세히 설명 할 수 있습니까?
- 왜 여기서 이루어지고 있습니까? 또는 어떻게 도움이 되나요?
- 이것이 기능 스케일링과 어떻게 다릅니 까?
- 기능 엔지니어링에 필요한 단계입니까? 이 단계를 건너 뛰면 어떻게됩니까?