미백은 항상 좋은가요?


27

머신 러닝 알고리즘의 일반적인 전처리 단계는 데이터 미백입니다.

데이터의 상관 관계를 해제하여 모델링하기가 더 간단하기 때문에 항상 미백을 수행하는 것이 좋습니다.

미백은 언제 권장되지 않습니까?

참고 : 데이터의 상관 관계를 언급하고 있습니다.


1
미백에 대한 참조를 줄 수 있습니까?
Atilla Ozgur

2
이 스레드는 스텁이라고 생각합니다. 실제로 확장해야합니다. --현재 허용되는 답변에는 정보가 거의 없습니다. --나는 그것을 받아들이지 않고 현상금을 여길 것입니다.
Léo Léopold Hertz 준영

당신의 질문은 또한 "항상"함으로써 편향됩니다. 물론 미백이 항상 좋은 것은 아닙니다. 또한 미백 유형을 정의하십시오. 나는 그것이 그 자체로 건설적인 대답이 아니라고 생각합니다. --사용할 데이터 유형을 정의하십시오. --더 좋은 질문이 될 수 있다고 생각합니다 .이 멋진 데이터에이 미백 적용을 어떻게 개선 할 수 있습니까? . --@AtillaOzgur 미백의 기본 변형이 고려되는 경우 하나의 소스 en.wikipedia.org/wiki/Whitening_transformation 입니다.
Léo Léopold Hertz 준영

답변:


13

사전 미백은 피쳐 정규화의 일반화로, 변환 된 입력 공분산 행렬에 대해 입력을 변환하여 독립적으로 입력을 만듭니다. 이것이 왜 나쁜 일인지 알 수 없습니다.

그러나 빠른 검색에서 "날씨 레이더의 성능을 향상시킬 수있는 데이터 화이트닝의 가능성" ( pdf )은 다음과 같이 밝혀졌습니다 .

특히, 미백은 지수 ACF (Monakov의 결과와 일치)의 경우에는 잘 작동했지만 가우시안의 경우에는 효과가 떨어졌습니다. 수치 실험 후, 가우스 공분산 행렬에 대해 조건 번호 (최소 고유 값에서 최소 고유 값의 비율)가 매우 크다는 점에서 가우시안 사례가 수치 적으로 잘못 조정 된 것으로 나타났습니다.

나는 이것에 대해 언급 할만 큼 교육을받지 못했습니다. 어쩌면 귀하의 질문에 대한 답변은 미백이 항상 좋지만 특정 문제가 있다는 것입니다 (예 : 임의의 데이터의 경우 가우시안 자기 상관 함수를 통해 수행하면 제대로 작동하지 않습니다).


2
내가 알기로 공분산 행렬이 잘 추정되면 잘 작동합니다. 누군가 이것에 대해 언급 할 수 있습니까? 감사.

3
위의 인용문은 잘못 추정 된 공분산 행렬을 나타내지 않습니다 (그러나 문제가 될 수도 있음). 완벽하게 지정된 공분산 행렬의 경우 필요한 인수 분해 (및 관련 데이터 변환)를 정확하게 수행하는 것이 여전히 어려울 수 있습니다. 이는 수치 부정 조건 때문 입니다. 즉, 유한 정밀도 반올림 오류가 계산을 오염시킵니다.
GeoMatt22

2
답변이 충분하지 않습니다. 대부분 관련이없는 자료를 복사했습니다. --이 답변은 실제로 확장되어야합니다. 스텁입니다.
Léo Léopold Hertz 준영

20

먼저, 상관 해제 및 미백은 두 가지 별도의 절차라고 생각합니다.

Σ=XX

ΣΦ=ΦΛ

Λ

ΦXΦ

또한 대각선 공분산을 다음과 같이 쓸 수 있습니다.

(1)ΦΣΦ=Λ

xi

(2)xi=Φxi

Λ

Λ1/2ΛΛ1/2=I

(1)

Λ1/2ΦΣΦΛ1/2=I

xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

xixiE(xixi)=I

Σ

그리고 마지막으로, 사람들이주의해야 할 일반적인 "gotcha"가 있습니다. 훈련 데이터에서 스케일링 계수를 계산할 때 주의해야하며 방정식 (2) 및 (3)을 사용하여 동일한 스케일링 계수를 테스트 데이터에 적용해야합니다. 그렇지 않으면 과적 합의 위험이 있습니다 (사용중인 경우) 훈련 과정에서 테스트 세트의 정보).

출처 : http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf


2
설명 주셔서 감사합니다, 당신이 맞아요. 나는 상관 해제를 언급했다. btw : 마지막에는 미백이 훈련 데이터에만 수행된다고 씁니다. 내가 아는 한 훈련 데이터에서 행렬을 계산하지만 훈련 및 테스트 데이터 모두에서 행렬을 수행합니다.

@Ran 그래 그게 내 뜻이야 ... 대답을 업데이트하겠습니다
tdc

답변에 섹션을 제공 할 수 있다면 좋을 것입니다. 소개, 요약 및 수학 내용이 있습니다. --당신은 당신의 대답에 충분히 깊이 가지 않는다고 생각합니다. -귀하의 답변은 대부분 사소한 제안을 다루지 만 주제에 대해서는 충분히 깊이 다루지 않습니다. 강의 노트에서 복사 한 기본 자료 만 있지만 주제에 대한 작업은 거의 없습니다.
Léo Léopold Hertz 준영

간단한 용어로, pca를 수행하여 상관 해제 된 기능을 얻은 다음 새 기능을 각각 분산으로 변경하여 희게 된 기능을 얻습니다.
아보카도

1

에서 http://cs231n.github.io/neural-networks-2/

이 변환의 한 가지 약점은 데이터에서 노이즈가 크게 과장 될 수 있다는 것입니다. 데이터에서 모든 크기 (대부분 노이즈 인 작은 분산의 관련없는 치수를 포함)를 입력에서 동일한 크기로 늘이기 때문입니다. 실제로는 더 강한 평활화로 완화 할 수 있습니다 ...

불행히도 나는 이것에 대해 더 언급 할만 큼 교육을받지 못했습니다.


어떤 형태의 소음이 과장되었는지 설명하십시오. 당신의 참조는 엄격합니다. 그것은 고대 신경망 접근과 같은 백색 잡음이라는 주제에 관한 기본적인 컴퓨터 과학 일뿐입니다. - 과장된 작품 도 정의해야합니다.
Léo Léopold Hertz 준영

이것은 동일한 분산을 갖기 위해 모든 기능의 스케일링과 관련이 있다고 생각합니다. 따라서 트레이닝 세트의 분산이 노이즈 인 기능이있는 경우이 기능의 전체 분산이 다른 기능보다 훨씬 작을 것으로 예상 할 수 있습니다. 이 변환은 "노이즈"기능과 다른 기능이 동일한 분산을 갖도록하고 "노이즈 증폭"으로 볼 수 있습니다.
ijoseph
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.