과적 합 데이터없이 최적을 선택하는 방법은 무엇입니까? N 정규 함수 등을 사용하여 바이 모달 분포 모델링


11

나는 명백하게 이분법적인 가치 분포를 가지고 있는데, 나는 그것을 추구한다. 데이터는 2 개의 일반 기능 (바이 모달) 또는 3 개의 일반 기능에 잘 맞습니다. 또한 데이터를 3에 맞추는 데에는 그럴듯한 물리적 이유가 있습니다.

도입 된 매개 변수가 많을수록 충분한 상수를 사용하면 " 코끼리를 맞출 수있다"는 것처럼 완벽하게 맞을 수 있습니다 .

다음은 3 개의 법선 (가우스) 곡선의 합에 맞는 분포입니다.

배포

각 적합치에 대한 데이터입니다. 적합 여부를 결정하기 위해 어떤 테스트를 적용해야하는지 잘 모르겠습니다. 데이터는 91 포인트로 구성됩니다.

1 일반 기능 :

  • RSS : 1.06231
  • X ^ 2 : 3.1674
  • F. 테스트 : 0.3092

2 일반 기능 :

  • RSS : 0.010939
  • X ^ 2 : 0.053896
  • F. 테스트 : 0.97101

3 일반 기능 :

  • RSS : 0.00536
  • X ^ 2 : 0.02794
  • F. 테스트 : 0.99249

이 세 가지 중 어느 것이 가장 적합한지를 결정하기 위해 적용 할 수있는 올바른 통계 테스트는 무엇입니까? 분명히, 1 개의 정상적인 기능은 적합하지 않습니다. 2와 3을 어떻게 구별 할 수 있습니까?

덧붙여서, 나는 주로 Excel과 약간의 Python으로 이것을하고 있습니다. 아직 R이나 다른 통계 언어에 익숙하지 않습니다.


축소 카이 제곱 X ^ 2 / (Nn-1)을 사용하는 것이 좋습니다. 여기서 N은 데이터 포인트 수이고 n은 적합 매개 변수 수입니다. 그러나 데이터 포인트 수 (91)에 대한 작은 페널티 (+/- 3)는 직관적으로 다른 가우시안을 추가 할 때 특히 가파른 패널티처럼 보이지 않습니다.
MurphysLab

이 답 을 확인하고 싶을 수도 있습니다 ( R경로 를 가기로 결정한 경우 ). 이 답변 에는 일부 모델 선택 기준이 언급되어 있습니다. 마지막으로, 이 답변 에서 간략하게 다루는 앙상블 메소드 를 고려할 수도 있습니다. 여기에는 Python 중심 정보에 대한 링크도 포함되어 있습니다. 이 답변 에서 모델 선택 및 평균화대한 자세한 내용을 확인할 수 있습니다 .
Aleksandr Blekh

답변:


5

배포판 선택 문제에 접근 할 수있는 두 가지 방법은 다음과 같습니다.

  1. 모형 비교의 경우 매개 변수 수에 따라 모형에 불이익을주는 척도를 사용하십시오. 정보 기준이이를 수행합니다. 정보 기준을 사용하여 유지할 모델을 선택하고 정보 기준이 가장 낮은 모델 (예 : AIC)을 선택하십시오. AIC의 차이가 유의한지 비교하기위한 경험의 법칙은 AIC의 차이가 2보다 큰 경우입니다 (공식 가설 검정은 아니며, 중첩되지 않은 두 모델의 AIC 차이 테스트 참조 ).

    AIC = . 여기서 는 추정 된 모수의 개수이고 은 최대 가능성, 및 는 우도 함수이고 는 분포 모수 에 조건부 관측 된 데이터 의 확률입니다 .2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. 공식적인 가설 검정을 원한다면 적어도 두 가지 방법으로 진행할 수 있습니다. 논란의 여지가 더 쉬운 방법은 표본의 일부를 사용하여 분포에 적합하고 나머지 데이터에 대해 카이 제곱 또는 Kolgomorov-Smirnov 검정을 사용하여 잔차 분포가 크게 다른 경우 검정보다 검정하는 것입니다. 이 방법으로 귀하는 주석에서 언급 한 AndrewM과 동일한 데이터를 사용하여 모델에 적합하고 테스트하지 않습니다.

    귀무 분포를 조정하여 우도 비 검정을 수행 할 수도 있습니다. 이것의 버전은 Lo Y. et al. (2013) "정상 혼합물의 성분 수 테스트." Biometrika 그러나 기사에 액세스 할 수 없으므로이를 수행하는 방법에 대한 자세한 정보를 제공 할 수 없습니다.

    어느 쪽이든, 검정이 유의하지 않은 경우 더 적은 수의 모수를 갖는 분포를 유지하고, 유의 한 경우 더 많은 수의 모수를 갖는 것을 선택하십시오.


@Momo 감사합니다, 그것을 변경하고 AIC에 대한 방정식을 추가했습니다
Chris Novak

100 % 확신 할 수는 없지만 혼합물의 다른 구성이 동일한 모델을 생성 할 수 있으므로 표준 AIC가 혼합 모델에서 예상대로 작동하지 않을 수 있습니다.
Cagdas Ozgenc

내가 의미하는 것은 2 가우스를 바꾸고 (1의 평균 / 분산을 2로, 2를 1로, 또한 혼합물 와이트를 설정하여) 여전히 동일한 모델을 얻을 수 있다는 것입니다. 내가 아는 한 AIC는 그러한 상황에서 예상대로 작동하지 않습니다.
Cagdas Ozgenc

1
@CagdasOzgenc 요점을 알지만 표준 AIC 및 BIC가 가우스 혼합 모델에서 모델 선택에 적합한 것으로 보입니다. 예를 들어 paper projecteuclid.org/download/pdf_1/euclid.aos/1176348772
Chris Novak

1
@ChrisNovak 예, 가능성 비율 테스트 ( 모수 공간의 차원의 차이와 같은 DOF 를 사용하여 일반적인 에서 null 샘플링 분포를 조정하여 )는 좋은 생각입니다. 조정이 얼마나 복잡한 지 모르겠지만 이러한 경우 혼합 이 일반적입니다. 매개 변수 공간의 경계에서 점을 테스트하고 있으므로 조정이 필요합니다. χ2χ2
Andrew M
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.