머신 러닝 알고리즘의 일반적인 전처리 단계는 데이터 미백입니다.
데이터의 상관 관계를 해제하여 모델링하기가 더 간단하기 때문에 항상 미백을 수행하는 것이 좋습니다.
미백은 언제 권장되지 않습니까?
참고 : 데이터의 상관 관계를 언급하고 있습니다.
머신 러닝 알고리즘의 일반적인 전처리 단계는 데이터 미백입니다.
데이터의 상관 관계를 해제하여 모델링하기가 더 간단하기 때문에 항상 미백을 수행하는 것이 좋습니다.
미백은 언제 권장되지 않습니까?
참고 : 데이터의 상관 관계를 언급하고 있습니다.
답변:
사전 미백은 피쳐 정규화의 일반화로, 변환 된 입력 공분산 행렬에 대해 입력을 변환하여 독립적으로 입력을 만듭니다. 이것이 왜 나쁜 일인지 알 수 없습니다.
그러나 빠른 검색에서 "날씨 레이더의 성능을 향상시킬 수있는 데이터 화이트닝의 가능성" ( pdf )은 다음과 같이 밝혀졌습니다 .
특히, 미백은 지수 ACF (Monakov의 결과와 일치)의 경우에는 잘 작동했지만 가우시안의 경우에는 효과가 떨어졌습니다. 수치 실험 후, 가우스 공분산 행렬에 대해 조건 번호 (최소 고유 값에서 최소 고유 값의 비율)가 매우 크다는 점에서 가우시안 사례가 수치 적으로 잘못 조정 된 것으로 나타났습니다.
나는 이것에 대해 언급 할만 큼 교육을받지 못했습니다. 어쩌면 귀하의 질문에 대한 답변은 미백이 항상 좋지만 특정 문제가 있다는 것입니다 (예 : 임의의 데이터의 경우 가우시안 자기 상관 함수를 통해 수행하면 제대로 작동하지 않습니다).
먼저, 상관 해제 및 미백은 두 가지 별도의 절차라고 생각합니다.
또한 대각선 공분산을 다음과 같이 쓸 수 있습니다.
그리고 마지막으로, 사람들이주의해야 할 일반적인 "gotcha"가 있습니다. 훈련 데이터에서 스케일링 계수를 계산할 때 주의해야하며 방정식 (2) 및 (3)을 사용하여 동일한 스케일링 계수를 테스트 데이터에 적용해야합니다. 그렇지 않으면 과적 합의 위험이 있습니다 (사용중인 경우) 훈련 과정에서 테스트 세트의 정보).
출처 : http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf
에서 http://cs231n.github.io/neural-networks-2/
이 변환의 한 가지 약점은 데이터에서 노이즈가 크게 과장 될 수 있다는 것입니다. 데이터에서 모든 크기 (대부분 노이즈 인 작은 분산의 관련없는 치수를 포함)를 입력에서 동일한 크기로 늘이기 때문입니다. 실제로는 더 강한 평활화로 완화 할 수 있습니다 ...
불행히도 나는 이것에 대해 더 언급 할만 큼 교육을받지 못했습니다.