나는 종종 모든 요소에서 평균을 제거하여 데이터 세트의 차원 / 기능을 만드는 사람들이 제로 평균임을 알 수 있습니다. 그러나 나는 왜 그렇게 해야하는지 이해하지 못했습니까? 전처리 단계로 수행하면 어떤 효과가 있습니까? 분류 성능이 향상됩니까? 데이터 세트에 대한 답변에 도움이 되나요? 시각화를 수행 할 때 데이터를 이해하는 데 도움이됩니까?
나는 종종 모든 요소에서 평균을 제거하여 데이터 세트의 차원 / 기능을 만드는 사람들이 제로 평균임을 알 수 있습니다. 그러나 나는 왜 그렇게 해야하는지 이해하지 못했습니까? 전처리 단계로 수행하면 어떤 효과가 있습니까? 분류 성능이 향상됩니까? 데이터 세트에 대한 답변에 도움이 되나요? 시각화를 수행 할 때 데이터를 이해하는 데 도움이됩니까?
답변:
"데이터의 평균을 중심으로"(이후 "de-meaning")가 유용한 경우 :
1) 분포가 다른 분포와 "동일한"지 여부를 육안으로 감지하여 실제 선으로 만 이동했습니다. 평균이 0 인 두 분포를 만들면이 육안 검사가 훨씬 쉬워집니다. 때로는 평균값이 많이 다른 경우 같은 차트에서 해당 값을 보는 것이 비현실적입니다. 두 개의 정규 rv를 생각해보십시오 과 입니다. 밀도 그래프 의 모양 은 동일하며 실제 선에서의 위치 만 다릅니다. 이제 밀도 함수의 그래프가 있지만 그 분산을 모릅니다. 그것들을 의미하지 않으면 하나의 그래프가 다른 그래프 위에 겹쳐집니다.N ( 100 , 4 )
2) 더 높은 모멘트 계산 단순화 : 임의의 변수에 상수를 추가해도 분산 또는 다른 임의의 변수와의 공분산은 변경되지 않지만 평균이 0이 아닌 경우 자세한 계산을 작성해야합니다. 당신은 이 모든 조건을 작성하고이 상쇄 것으로 나타났다. 변수가 의미가 없으면 쓸모없는 계산이 많이 저장됩니다.
3) 평균을 중심으로 한 임의의 변수는 중심 한계 정리의 주제입니다
4) "평균값"으로부터의 편차는 많은 경우에 관심의 대상이며, 랜덤 변수의 실제 값보다는 "평균 이상"인지 여부입니다. 음수 값으로 평균 이하의 "시각적 및 / 또는 계산적으로"편차 및 양수 값으로 평균 위의 편차를 "번역"하면 메시지가 더 명확하고 강해집니다.
더 자세한 토론은 다음을 참조하십시오.
다중 회귀 분석을 수행 할 때는 예측 변수를 언제 중심에두고 언제 표준화해야합니까?
CV에서 "중심 데이터"를 검색하면 다른 흥미로운 게시물도 찾을 수 있습니다.
또한, 실제적인 이유로, 예를 들어 신경망을 훈련 할 때 데이터를 중심에 두는 것이 유리하다.
신경망을 훈련시키기 위해서는 기울기 기반 접근법을 사용하여 볼록하지 않은 최적화 문제를 해결해야합니다. 그라디언트는 역 전파에 의해 계산됩니다. 이제 이러한 그라디언트는 입력에 따라 달라지며 데이터를 중앙에 배치하면 그라디언트의 가능한 바이어스가 제거됩니다.
구체적으로, 0이 아닌 평균은 큰 고유 값에 반영되는데, 이는 기울기가 다른 방향 (바이어스)보다 한 방향으로 더 큰 경향이있어 수렴 프로세스를 느리게하여 결과적으로 더 나쁜 솔루션으로 이어진다는 것을 의미합니다.