분포 모멘트를 사용하여 분포를 샘플링 할 수 있습니까?


14

통계 / 기계 학습 방법에서 분포는 종종 가우시안에 의해 근사되며 가우시안이 샘플링에 사용됩니다. 분포의 처음 두 모멘트를 계산하는 것으로 시작하여 μσ2 를 추정하는 데 사용합니다 . 그런 다음 가우시안에서 샘플링 할 수 있습니다.

내가 계산하는 순간이 많을수록 표본 추출하려는 분포를 근사화 할 수 있어야합니다.

3 모멘트를 계산하면 어떻게됩니까? 분포에서 샘플링하기 위해이를 어떻게 사용할 수 있습니까? 그리고 이것을 N 순간까지 연장 할 수 있습니까?


2
세 순간은 분포 형태를 결정하지 않습니다 *; 처음 세 모집단 모멘트와 관련된 세 모수를 갖는 분포 패밀리 를 선택 하면 모멘트 일치 ( "모멘트 방법")를 수행하여 세 모수를 추정 한 다음 이러한 분포에서 값을 생성 할 수 있습니다. 그러한 배포판이 많이 있습니다.[* 실제로, 모든 순간을 갖는 조차도 분포를 결정하기에 충분하지 않습니다.]
Glen_b -Reinstate Monica

감사합니다, @Glen_b! 가능한 순간을 이해하기 위해 "순간 방법"에 대해 읽겠습니다. 순간이 분포를 결정하기에 충분하지 않은시기를 설명하는 이론을 알려줄 수 있습니까?
curious_dan

"모멘트 방법"은 모멘트에서 모수를 추정하는 방법을 알려줍니다. 귀하의 의견의 나머지 부분은 새로운 질문입니다 (이미 사이트에서 이미 답변 된 것 같습니다). 간단히 말하면 모멘트 생성 함수가 (0 부근에) 존재하면 분포를 고유하게 식별합니다 (기술적으로는 원칙적으로 역 라플라스 변환을 수행 할 수 있음). 확실히 어떤 순간이 유한하지 않다면 이것은 mgf가 존재하지 않는다는 것을 의미하지만 모든 순간이 유한하지만 mgf가 여전히 0 부근에 존재하지 않는 경우도 있습니다.
Glen_b -Reinstate Monica

내 의견에 따라 답변을 작성하고 있습니다.
Glen_b-복지 주 모니카

답변:


22

세 순간은 분포 형태를 결정하지 않습니다. 처음 세 모집단 모멘트와 관련된 세 모수를 갖는 분포 패밀리를 선택하면 모멘트 일치 ( "모멘트 방법")를 수행하여 세 모수를 추정 한 다음 이러한 분포에서 값을 생성 할 수 있습니다. 그러한 배포판이 많이 있습니다.

때로는 모든 순간을 갖는 것만으로는 분포를 결정하기에 충분하지 않습니다. 모멘트 생성 함수가 존재하면 (0 근처에) 분포를 고유하게 식별합니다 (원칙적으로 역 라플라스 변환을 수행하여이를 얻을 수 있음).

[일부 모멘트가 유한하지 않으면 mgf가 존재하지 않지만 모든 모멘트가 유한하지만 mgf가 0 근처에 존재하지 않는 경우도 있습니다.]

분포의 선택이 주어지면, 처음 세 순간에 제약이있는 최대 엔트로피 솔루션을 고려하고 싶은 유혹을받을 수 있지만, 실제 선에 도달하는 분포는 없습니다 (지수의 결과 입방체가 제한되지 않기 때문에).


특정 분포 선택에 대한 프로세스 작동 방식

순간 - 사행 (- 우리는 평균 및 분산을 무시하고 스케일링 번째 순간과 작동에 의해 분배 정합 세 순간을 얻는 과정 단순화 γ1=μ/μ2/2 ).

관련 왜도를 갖는 분포를 선택했기 때문에이 작업을 수행 할 수 있습니다. 그런 다음 스케일링 및 시프트를 통해 원하는 평균 및 분산을 제거 할 수 있습니다.

예를 생각해 봅시다. 어제 나는 분포가 함수 형태를 계산하려고 시도하지 않은 큰 데이터 세트 (여전히 R 세션에 있음)를 만들었습니다 (n에서 Cauchy의 샘플 분산 로그 값의 큰 세트입니다) = 10). 처음 세 원시 모멘트는 각각 1.519, 3.597 및 11.479 또는 이에 상응하여 평균 1.518, 표준 편차 * 1.136 및 왜도 1.429 (대규모 샘플의 샘플 값)입니다.

공식적으로, 모멘트 방법은 원시 모멘트를 일치 시키려고하지만, 왜도 (skewness)로 시작하면 계산이 더 간단 해집니다 (한 번에 세 개의 미지수로 세 개의 방정식을 풀면 한 번에 하나의 매개 변수를 푸는 것으로 훨씬 간단한 작업).

* 공식적인 모멘트 방법에 해당하는 분산에 n 분모를 사용하는 것과 n-1 분모를 구별하는 것을 구별하고 샘플 계산을 사용합니다.

이 왜도 (~ 1.43)는 오른쪽으로 치우친 분포를 찾습니다. 예를 들어 동일한 모멘트 로 이동 대수 정규 분포 (3 개의 매개 변수 대수 정규, 모양 σ , 스케일 μ 및 위치 이동 γ )를 선택할 수 있습니다 . 왜도를 일치시키는 것으로 시작합시다. 두 매개 변수 로그 정규의 모집단 왜곡은 다음과 같습니다.

γ1=(이자형σ2+2)이자형σ21

σ2σ~2

γ12(τ+2)2(τ1)τ=이자형σ2τ+τ24=γ12τ~1.1995σ~20.1819γ1

μ

그러나 우리는 쉬프트 된 감마 또는 쉬프트 된 바 이불 분포 (또는 쉬프트 된 F 또는 다른 많은 선택)를 쉽게 선택하고 본질적으로 동일한 과정을 거칠 수있었습니다. 그들 각각은 다를 것입니다.

[내가 다루고있는 샘플의 경우, 값의 로그 분포가 기울어지고 큐브 루트의 분포가 대칭에 가깝기 때문에 시프트 감마가 시프트 로그 정규보다 상당히 나은 선택 일 수 있습니다. 이것들은 (쉬프트되지 않은) 감마 밀도에서 볼 수있는 것과 일치하지만, 왼쪽으로 치우친 로그의 밀도는 시프트 된 로그 노멀로 달성 할 수 없습니다.]

피어슨 플롯에서 왜도-커트 시스 다이어그램을 가져와 원하는 왜도에서 선을 그어 2 점 분포, 베타 분포 순서, 감마 분포, 베타-프라임 분포 순서, 역- 감마 분포 및 피어슨 IV 분포의 시퀀스는 모두 같은 왜도를 갖습니다.

β1=γ12β2

원하는 왜 도선이 그려진 피어슨 플롯

γ12=2.042σ


더 많은 순간

모멘트는 분포를 잘 고정하지 않으므로 많은 순간을 지정하더라도 그와 일치하는 분포 (특히 극단적 인 꼬리 동작과 관련하여)가 여전히 많이 있습니다.

물론 최소 4 개의 모수를 가진 일부 분포 패밀리를 선택하고 3 개 이상의 모멘트를 일치 시키려고 시도 할 수 있습니다. 예를 들어, 위의 Pearson 분포를 사용하면 처음 네 순간을 일치시킬 수 있으며 유사한 정도의 유연성을 허용하는 다른 분포 선택이 있습니다.

분산 전략 (혼합 분포, 스플라인을 사용한 로그 밀도 모델링 등)과 일치하는 분포를 선택하기 위해 다른 전략을 채택 할 수 있습니다.

그러나 배포판을 찾으려고했던 초기 목적으로 돌아 가면 여기에 설명 된 전략보다 더 나은 방법이있을 수 있습니다.


2

따라서 대답은 일반적으로 아니요입니다. 이렇게 할 수는 없지만 때로는 할 수 있습니다.

당신이 할 수 없을 때

이 작업을 수행 할 수없는 이유 는 대개 두 가지입니다.

먼저 N 개의 관측치가있는 경우 최대 N 개의 모멘트를 계산할 수 있습니다. 다른 순간은 어떻습니까? 단순히 0으로 설정할 수 없습니다.

γ100=나는엑스나는100

때 당신이 할 수있는

이제 때때로 순간에서 분포를 얻을 수 있습니다. 그것은 어떤 종류의 분포에 대해 가정 할 때입니다. 예를 들어 정상이라고 선언합니다. 이 경우 필요한 것은 단지 두 가지 모멘트 일 뿐이며 보통 보통 정밀하게 계산할 수 있습니다. 정규 분포 실제로 첨도와 같이 더 높은 모멘트를 갖지만, 우리는 그것들이 필요하지 않습니다. 정규 분포의 모든 모멘트를 계산하는 경우 (정상이라고 가정하지 않고) 분포에서 샘플링 할 특성 함수를 복구하려고 시도하면 작동하지 않습니다. 그러나 더 높은 순간을 잊어 버리고 처음 두 시간을 고수하면 효과가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.