데이터를 제로 평균으로 만드는 아이디어


12

나는 종종 모든 요소에서 평균을 제거하여 데이터 세트의 차원 / 기능을 만드는 사람들이 제로 평균임을 알 수 있습니다. 그러나 나는 왜 그렇게 해야하는지 이해하지 못했습니까? 전처리 단계로 수행하면 어떤 효과가 있습니까? 분류 성능이 향상됩니까? 데이터 세트에 대한 답변에 도움이 되나요? 시각화를 수행 할 때 데이터를 이해하는 데 도움이됩니까?


9
이 접근 방식을 센터링 이라고 합니다. 응용 프로그램 중 하나는 회귀 모델의 절편을 "x가 평균 일 때 예측 된 y"로 바꾸어 절편을 좀 더 해석하기 쉽게 만드는 것입니다.
Penguin_Knight

중앙 집중식 기능 / 데이터 세트도 잘 조정 되었다고 말할 수 있습니다 . 시각적 설명 은 여기 를 참조 하십시오 . 입력 정규화 작업을 통해 그라디언트 디센트가 훨씬 쉬워집니다.
조정

답변:


12

"데이터의 평균을 중심으로"(이후 "de-meaning")가 유용한 경우 :

1) 분포가 다른 분포와 "동일한"지 여부를 육안으로 감지하여 실제 선으로 만 이동했습니다. 평균이 0 인 두 분포를 만들면이 육안 검사가 훨씬 쉬워집니다. 때로는 평균값이 많이 다른 경우 같은 차트에서 해당 값을 보는 것이 비현실적입니다. 두 개의 정규 rv를 생각해보십시오 과 입니다. 밀도 그래프 의 모양 은 동일하며 실제 선에서의 위치 만 다릅니다. 이제 밀도 함수의 그래프가 있지만 그 분산을 모릅니다. 그것들을 의미하지 않으면 하나의 그래프가 다른 그래프 위에 겹쳐집니다.N ( 100 , 4 )N(10,4)N(100,4)

2) 더 높은 모멘트 계산 단순화 : 임의의 변수에 상수를 추가해도 분산 또는 다른 임의의 변수와의 공분산은 변경되지 않지만 평균이 0이 아닌 경우 자세한 계산을 작성해야합니다. 당신은 모든 조건을 작성하고이 상쇄 것으로 나타났다. 변수가 의미가 없으면 쓸모없는 계산이 많이 저장됩니다.

3) 평균을 중심으로 한 임의의 변수는 중심 한계 정리의 주제입니다

4) "평균값"으로부터의 편차는 많은 경우에 관심의 대상이며, 랜덤 변수의 실제 값보다는 "평균 이상"인지 여부입니다. 음수 값으로 평균 이하의 "시각적 및 / 또는 계산적으로"편차 및 양수 값으로 평균 위의 편차를 "번역"하면 메시지가 더 명확하고 강해집니다.

더 자세한 토론은 다음을 참조하십시오.

다중 회귀 분석을 수행 할 때는 예측 변수를 언제 중심에두고 언제 표준화해야합니까?

다중 회귀 분석에서 데이터 센터링

CV에서 "중심 데이터"를 검색하면 다른 흥미로운 게시물도 찾을 수 있습니다.


@OP :이 답변을 받아 들여야한다고 생각합니다.
rottweiler

4

또한, 실제적인 이유로, 예를 들어 신경망을 훈련 할 때 데이터를 중심에 두는 것이 유리하다.

신경망을 훈련시키기 위해서는 기울기 기반 접근법을 사용하여 볼록하지 않은 최적화 문제를 해결해야합니다. 그라디언트는 역 전파에 의해 계산됩니다. 이제 이러한 그라디언트는 입력에 따라 달라지며 데이터를 중앙에 배치하면 그라디언트의 가능한 바이어스가 제거됩니다.

구체적으로, 0이 아닌 평균은 큰 고유 값에 반영되는데, 이는 기울기가 다른 방향 (바이어스)보다 한 방향으로 더 큰 경향이있어 수렴 프로세스를 느리게하여 결과적으로 더 나쁜 솔루션으로 이어진다는 것을 의미합니다.


1

Alecos가 말한 내용에 추가하는 것은 매우 우수합니다. 베이지안 통계 또는 정규화를 사용할 때는 데이터를 0으로 중앙에 두는 것이 매우 중요합니다.

데이터를 제로 평균으로 만들면 공분산 행렬의 비 대각선 항을 많이 줄일 수 있으므로 각 계수가 주로 해당 요인에 적용되고 다른 요인들.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.