나는 당신이 기본적으로 질문에 머리에 못을 박았다고 생각하지만, 어쨌든 무언가를 추가 할 수 있는지 볼 것입니다. 나는 이것에 대해 조금 우회적으로 대답 할 것입니다 ...
강력한 통계 필드는 가우시안 가정이 실패 할 때 수행 할 조치 (이상 치가 있다는 의미)를 조사합니다.
데이터 오차가 적어도 대략 정규 분포되어 있거나 정규 분포 추정치를 생성하기 위해 중심 한계 정리에 의존 할 수 있다고 종종 가정된다. 불행히도, 데이터에 특이 치가있을 때 고전적인 방법은 종종 성능이 매우 낮습니다.
이것들은 ML에도 적용되었습니다 (예 : Mika el al. (2001) Kernel Fisher Algorithm에 대한 수학적 프로그래밍 접근 방법은 Huber의 강력한 손실 을 KDFA와 함께 사용할 수있는 방법을 설명합니다 (다른 손실 기능과 함께). 물론 이것은 분류 손실이지만 KFDA는 Relevance Vector Machine과 밀접한 관련이 있습니다 (Mika 논문의 섹션 4 참조).
질문에 암시 된 바와 같이 손실 함수와 베이지안 오차 모델 사이에는 밀접한 관련이 있습니다 ( 토론 은 여기 참조 ).
그러나 "펑키 한"손실 기능을 통합하자마자 최적화가 어려워지는 경우가 많습니다 (베이지 세계에서도 마찬가지입니다). 따라서 많은 경우 사람들은 최적화하기 쉬운 표준 손실 기능에 의존하고 대신 데이터를 모델과 일치시키기 위해 추가 전처리를 수행합니다.
언급 한 다른 점은 CLT가 IID 인 샘플에만 적용된다는 것입니다. 이것은 사실이지만 대부분의 알고리즘에 대한 가정 (및 수반되는 분석)은 동일합니다. 비 IID 데이터를 살펴보면 상황이 훨씬 까다로워집니다. 한 가지 예는 시간적 의존성이있는 경우, 일반적으로이 접근 방식은 의존성이 특정 창에만 적용된다고 가정하는 것이며, 따라서 샘플은이 창 밖에서 대략 IID로 간주 될 수 있습니다 (예 :이 훌륭하지만 거친 용지 Chromatic PAC 참조) -IID가 아닌 데이터에 대한 베이 어스 경계 : 랭킹 및 고정 β- 믹싱 프로세스에 대한 애플리케이션 ) 후 정상 분석을 적용 할 수 있습니다.
그렇습니다. 편의상 부분적으로 떨어졌으며 실제 세계에서는 대부분의 오류가 가우시안처럼 보이기 때문입니다. 당연히 새로운 문제를 검토 할 때 가정이 위반되지 않도록주의해야합니다.