왜 우리는 오류가 정규 분포라고 가정합니까?


17

오류를 모델링 할 때 왜 가우시안 가정을 ​​사용해야하는지 궁금합니다. 에서 스탠포드의 ML 과정 , 교수 잉은 두 가지 방식으로 기본적으로 설명 :

  1. 수학적으로 편리합니다. (최소 제곱 피팅과 관련이 있으며 의사 역수로 쉽게 해결할 수 있습니다)
  2. 중앙 한계 정리로 인해 프로세스에 영향을 미치는 많은 기본 사실이 있다고 가정 할 수 있으며 이러한 개별 오류의 합은 평균 제로 평균 분포 에서처럼 행동하는 경향이 있습니다. 실제로는 그렇습니다.

실제로 두 번째 부분에 관심이 있습니다. Central Limit Theorem은 내가 아는 한 iid 샘플에 대해 작동하지만 기본 샘플이 iid임을 보장 할 수는 없습니다.

오류에 대한 가우시안 가정에 대한 아이디어가 있습니까?


어떤 설정에 대해 이야기하고 있습니까? 분류, 회귀 또는 더 일반적인 것?
tdc

나는 일반적인 경우에 대한 질문을했다. 대부분의 이야기는 가우스 오류 가정으로 시작합니다. 그러나 개인적으로 필자의 관심은 매트릭스 인수 분해 및 선형 모델 솔루션 (회귀)입니다.
petrichor

답변:


9

나는 당신이 기본적으로 질문에 머리에 못을 박았다고 생각하지만, 어쨌든 무언가를 추가 할 수 있는지 볼 것입니다. 나는 이것에 대해 조금 우회적으로 대답 할 것입니다 ...

강력한 통계 필드는 가우시안 가정이 실패 할 때 수행 할 조치 (이상 치가 있다는 의미)를 조사합니다.

데이터 오차가 적어도 대략 정규 분포되어 있거나 정규 분포 추정치를 생성하기 위해 중심 한계 정리에 의존 할 수 있다고 종종 가정된다. 불행히도, 데이터에 특이 치가있을 때 고전적인 방법은 종종 성능이 매우 낮습니다.

이것들은 ML에도 적용되었습니다 (예 : Mika el al. (2001) Kernel Fisher Algorithm에 대한 수학적 프로그래밍 접근 방법은 Huber의 강력한 손실 을 KDFA와 함께 사용할 수있는 방법을 설명합니다 (다른 손실 기능과 함께). 물론 이것은 분류 손실이지만 KFDA는 Relevance Vector Machine과 밀접한 관련이 있습니다 (Mika 논문의 섹션 4 참조).

질문에 암시 된 바와 같이 손실 함수와 베이지안 오차 모델 사이에는 밀접한 관련이 있습니다 ( 토론 은 여기 참조 ).

그러나 "펑키 한"손실 기능을 통합하자마자 최적화가 어려워지는 경우가 많습니다 (베이지 세계에서도 마찬가지입니다). 따라서 많은 경우 사람들은 최적화하기 쉬운 표준 손실 기능에 의존하고 대신 데이터를 모델과 일치시키기 위해 추가 전처리를 수행합니다.

언급 한 다른 점은 CLT가 IID 인 샘플에만 적용된다는 것입니다. 이것은 사실이지만 대부분의 알고리즘에 대한 가정 (및 수반되는 분석)은 동일합니다. 비 IID 데이터를 살펴보면 상황이 훨씬 까다로워집니다. 한 가지 예는 시간적 의존성이있는 경우, 일반적으로이 접근 방식은 의존성이 특정 창에만 적용된다고 가정하는 것이며, 따라서 샘플은이 창 밖에서 대략 IID로 간주 될 수 있습니다 (예 :이 훌륭하지만 거친 용지 Chromatic PAC 참조) -IID가 아닌 데이터에 대한 베이 어스 경계 : 랭킹 및 고정 β- 믹싱 프로세스에 대한 애플리케이션 ) 후 정상 분석을 적용 할 수 있습니다.

그렇습니다. 편의상 부분적으로 떨어졌으며 실제 세계에서는 대부분의 오류가 가우시안처럼 보이기 때문입니다. 당연히 새로운 문제를 검토 할 때 가정이 위반되지 않도록주의해야합니다.


1
+1 강력한 통계와 비 강력 통계에 대해 언급 해 주셔서 감사합니다. 나는 중간 및 알파 트림 평균이 실제로는 평균보다 더 잘 작동한다는 것을 알지만 그 뒤에있는 이론을 몰랐습니다.
petrichor

3
정규 분포 데이터와 관련된 또 다른 편의 항목은 0 상관 관계가 독립성을 의미한다는 것입니다.
AdamO

3
IID에 대한 의견은 옳지 않습니다. 결과가 독립적이지만 동일하게 분포되지 않은 경우 적용되는 매우 일반적인 중앙 제한 정리가 있습니다. 예를 들어 Lindeberg CLT를 참조하십시오. 독립성이 필요없는 CLT 결과도 있습니다. 예를 들어, 교환 가능한 관측에서 발생할 수 있습니다.
손님
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.