제로 평균 및 단위 분산

10

Data Scaling, 특히 표준화 방법을 연구하고 있습니다. 나는 그 배후의 수학을 이해했지만 기능에 평균과 단위 분산을 제로로 부여하는 것이 왜 중요한지 명확하지 않습니다.

나 한테 설명해 줄래 ?

machine-learning feature-scaling normalization

— 퀘 르토
소스

여기 를 보십시오 .

— Media

:이 좋은 것 medium.com/greyatom/...

— 러너 장

8

중요한 이유와 이유에 대한 질문은 상황에 따라 다릅니다.

예를 들어 그라디언트 향상 의사 결정 트리의 경우 중요하지 않습니다. 이러한 ML 알고리즘은 데이터의 모노톤 변환에 대해 "무관"합니다. 그들은 단지 그것을 나눌 점을 찾습니다.
예를 들어 선형 예측 변수의 경우 스케일링은 결과의 해석 성을 향상시킬 수 있습니다. 지형지 물의 크기를 지형지 물이 결과에 얼마나 영향을 미치는지 나타내는 지표로 생각하려면 지형지 물을 어떻게 든 같은 영역으로 확장해야합니다.
일부 예측 변수, 특히 NN, 스케일링 및 특정 범위로 스케일링은 기술적 이유로 중요 할 수 있습니다. 일부 레이어는 일부 영역 내에서만 효과적으로 변경되는 함수 ( 쌍곡선 함수 함수 와 유사 함 )를 사용하며, 기능이 범위를 벗어난 경우 채도가 발생할 수 있습니다. 이런 일이 발생하면 수치 미분은 제대로 작동하지 않으며 알고리즘이 좋은 지점으로 수렴하지 못할 수 있습니다.

— 아미 타 보리
소스

2

평균이 0 인 경우, 이는 일부 머신 러닝 모델에 표현에 바이어스 용어가 포함되어 있지 않기 때문에 데이터를 알고리즘에 공급하기 전에 데이터를 원점 주위로 이동해야 바이어스 용어가 부족한 경우를 보상 할 수 있습니다. 단위 분산의 경우 많은 머신 러닝 알고리즘이 어떤 종류의 거리 (예 : 유클리드)를 사용하여 결정하거나 예측하기 때문입니다. 특정 지형지 물에 넓은 값 (예 : 큰 분산)이있는 경우 거리는 해당 지형지 물의 영향을 많이받으며 다른 지형지 물의 영향은 무시됩니다. 그런데 데이터가 표준화되면 일부 최적화 알고리즘 (그라데이션 디센트 포함)의 성능이 향상됩니다.

— pythinker
소스

2

머신 러닝에서 데이터 세트로 시작할 때마다 모든 데이터 기능이 출력과 관련하여 똑같이 중요하며 하나의 기능이 다른 기능보다 우월해서는 안된다고 가정합니다. 이것이 우리가 모든 기능을 동일한 규모로 가져 오기로 선택한 이유입니다.
그러나 여기서 특징이 정규화되지 않더라도 학습 중에 할당 된 가중치가 학습 중에 데이터 세트가 예상 출력으로 수렴하는 데 도움이 될 수 있다는 점에서 의문을 제기 할 수 있습니다. 이것의 문제는 결과를 훈련하고 생산하는 데 시간이 오래 걸린다는 것입니다.
특정 숫자 0을 평균 및 분산 1로 선택하면 이러한 작은 숫자를 쉽게 시각화하고 유지하는 것이 훈련 속도를 높이는 데 도움이됩니다.

따라서 모든 기능을 쉽게 학습 할 수있을 정도로 작은 크기로 가져 오는 것이 좋습니다. 아래 링크에서도 비슷한 개념에 대해 설명합니다. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

— 디 yan 슈 셰카
소스