제로 평균 및 단위 분산


답변:


8

중요한 이유와 이유에 대한 질문은 상황에 따라 다릅니다.

  • 예를 들어 그라디언트 향상 의사 결정 트리의 경우 중요하지 않습니다. 이러한 ML 알고리즘은 데이터의 모노톤 변환에 대해 "무관"합니다. 그들은 단지 그것을 나눌 점을 찾습니다.

  • 예를 들어 선형 예측 변수의 경우 스케일링은 결과의 해석 성을 향상시킬 수 있습니다. 지형지 물의 크기를 지형지 물이 결과에 얼마나 영향을 미치는지 나타내는 지표로 생각하려면 지형지 물을 어떻게 든 같은 영역으로 확장해야합니다.

  • 일부 예측 변수, 특히 NN, 스케일링 및 특정 범위로 스케일링은 기술적 이유로 중요 할 수 있습니다. 일부 레이어는 일부 영역 내에서만 효과적으로 변경되는 함수 ( 쌍곡선 함수 함수 와 유사 함 )를 사용하며, 기능이 범위를 벗어난 경우 채도가 발생할 수 있습니다. 이런 일이 발생하면 수치 미분은 제대로 작동하지 않으며 알고리즘이 좋은 지점으로 수렴하지 못할 수 있습니다.

여기에 이미지 설명을 입력하십시오


2

평균이 0 인 경우, 이는 일부 머신 러닝 모델에 표현에 바이어스 용어가 포함되어 있지 않기 때문에 데이터를 알고리즘에 공급하기 전에 데이터를 원점 주위로 이동해야 바이어스 용어가 부족한 경우를 보상 할 수 있습니다. 단위 분산의 경우 많은 머신 러닝 알고리즘이 어떤 종류의 거리 (예 : 유클리드)를 사용하여 결정하거나 예측하기 때문입니다. 특정 지형지 물에 넓은 값 (예 : 큰 분산)이있는 경우 거리는 해당 지형지 물의 영향을 많이받으며 다른 지형지 물의 영향은 무시됩니다. 그런데 데이터가 표준화되면 일부 최적화 알고리즘 (그라데이션 디센트 포함)의 성능이 향상됩니다.


2
  • 머신 러닝에서 데이터 세트로 시작할 때마다 모든 데이터 기능이 출력과 관련하여 똑같이 중요하며 하나의 기능이 다른 기능보다 우월해서는 안된다고 가정합니다. 이것이 우리가 모든 기능을 동일한 규모로 가져 오기로 선택한 이유입니다.
    그러나 여기서 특징이 정규화되지 않더라도 학습 중에 할당 된 가중치가 학습 중에 데이터 세트가 예상 출력으로 수렴하는 데 도움이 될 수 있다는 점에서 의문을 제기 할 수 있습니다. 이것의 문제는 결과를 훈련하고 생산하는 데 시간이 오래 걸린다는 것입니다.
  • 특정 숫자 0을 평균 및 분산 1로 선택하면 이러한 작은 숫자를 쉽게 시각화하고 유지하는 것이 훈련 속도를 높이는 데 도움이됩니다.

따라서 모든 기능을 쉽게 학습 할 수있을 정도로 작은 크기로 가져 오는 것이 좋습니다. 아래 링크에서도 비슷한 개념에 대해 설명합니다. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.