표본 추출 할 수없는 일 변량 분포가 있습니까?


12

우리는 일 변량 분포 (역변환, 수락-거부, 메트로폴리스-해 스팅 등)에서 랜덤 생성을위한 다양한 방법을 가지고 있으며 문자 그대로 유효한 분포에서 샘플링 할 수있는 것 같습니다.

랜덤 생성이 불가능한 일 변량 분포의 예를 제공 할 수 있습니까? 불가능한 예는 존재하지 않는 것 같아요 (?). "불가능"이라는 말은 계산 이 매우 비싼 경우를 의미한다고 가정 해 봅시다 . 예를 들어 그들 중 몇 명.

예를 존재하지 않는 경우에, 우리는 사실에서 그립니다 우리가 무작위로 생성 할 수 있음을 증명할 수 있는 유효한 유통? 이것에 대한 반례가 존재한다면 나는 단순히 궁금합니다.


6
"불가능 / 불가능"이란 말의 의미에 따라 달라집니다. 예를 들어, cdf와 pdf가 평가하기에 비용이 많이 드는 경우가 있습니다. 예를 들어, 대부분의 방법을 금지 할 수 있으며, pdf에 좋은 봉투 경계가있는 분포 형태를 만드는 것이 어렵지 않습니다. 대부분 기능 평가를 피하십시오) 쉽게 구할 수 없습니다. 따라서 이미 배제한 경우에는 실패 할 수 있으며 accept-reject를 사용하는 것 (cdf의 숫자 반전을 사용하지 않는 것)을 계산하는 것보다 를 더 비싸게 만들 수 있습니다 (평균 편차).F
Glen_b -Reinstate Monica

3
컴퓨터를 사용하여 구간 (0,1)의 비이성적 인 숫자 집합에서 균일 한 무작위 샘플을 추출 할 수 없습니다. 증명은 독자를위한 연습으로 남아 있습니다.
Cliff AB

2
@Cliff AB 간격 산술로 처리 할 수 ​​있습니다. [0,1] 전체가이 간격에 포함되도록 각 컴퓨터 평가 가능 (이론적) 지점 주위에 (가장 작은) 간격을 정의하십시오. 그려진 각 컴퓨터 평가 가능한 "균일 한"에 대해,이 간격 인수에서 누적 분포 함수의 역수 t (외부 라운딩 사용) 간격을 평가합니다. 그러면 랜덤 변수의 구간 샘플이 생성되고 실제 샘플이 포함되도록 100 % 보장됩니다.
Mark L. Stone

2
내가 얻는 것은 이미 충분히 비효율적 인 수락 거부를 "불가능한"것으로 계산하기 때문입니다. 만약 당신이 알고있는 다른 접근법이 더 나빠질수록 (더 많은 계산이 필요합니다) 아마도 "불가능한"것으로 간주 할 것입니다. 값 비싼 F와 F를 구성하는 것은 그리 어렵지 않으며 실제로 대부분의 시간을 실제로 계산하지 않는 명백한 방법도 비효율적입니다. ctd
Glen_b -Reinstate Monica

1
ctd ... (통칭하여 사람들은 매우 독창적이므로 언젠가는 어려운 문제는 대부분의 문제를 해결하는 좋은 아이디어를 생각해 내면 실현 가능할 수 있습니다). "정확한 정확도에 대한 근사치가 좋다"고 말하면 이러한 많은 어려움은 많은 경우에 해결 될 수 있습니다 (예를 들어, 큰 조회 테이블을 생성하거나 히스토그램에서 생성 할 수 있음). 대부분의 경우 근사값을 합리적으로 빠르게 생성합니다).
Glen_b-복지 모니카

답변:


15

누적 분포 함수 를 알고 있다면 분석적으로나 수치 적으로 함수를 반전시키고 역변환 샘플링 방법을 사용하여 임의 샘플 https://en.wikipedia.org/wiki/Inverse_transform_sampling 을 생성 할 수 있습니다 .F(x)

정의 . 연속, 불연속 또는 조합으로 모든 분포를 처리합니다. 이것은 항상 수치 적으로, 그리고 아마도 분석적으로 해결할 수 있습니다. U를 균일 [0,1]으로 분포 된 랜덤 변수, 즉 균일 [0,1] 난수 생성기로부터의 샘플로하자. 이어서 F - 1 ( U ) , 분포를 갖는 랜덤 변수의 무작위 샘플 인 상기에서 정의 된 F ( x는 ) . F1(y)=inf(x:F(x)y)F1(U)F(x)

이것은 임의의 샘플을 생성하는 가장 빠른 방법은 아니지만 F (x)가 알려져 있다고 가정합니다.

F (x)를 알 수 없다면 다른 이야기입니다.


2
만약 가 알려지지 않았다면, 알려진 것이 무엇입니까?F(x
Mark L. Stone

@Tim 사실, F (X)를 모르는 것이 일반적이지만 그로부터 샘플을 생성 할 수 있습니다. 이것은 Monte Carlo (stochastic) 시뮬레이션의 일반적인 시나리오입니다.
Mark L. Stone

@Tim :이 이야기에 관심이 없다면 어떤 이야기에 관심이 있는지 명확하지 않습니다. Glen_b의 의견에 비효율적 인 샘플링에 관심이 없다고 말했습니다. 이 방법은 비효율적이지만 모든 PDF에서 샘플링 할 수 있습니다 (수치 통합이 실패한다고 생각하지는 않지만 누군가가 그러한 배포판 사용에 관심이 없다고 생각합니다). 따라서 무한한 장소에서 불연속적인 분포에 관심이 없다면, 이것이 당신의 질문에 대한 답이 될 것입니다.
Cliff AB

실제로, 가 알려져 있지만 F - 1 이 아닌 경우 에는 이것이 문제입니다. FF1
시안

1
문제의 의미에 따라 다릅니다. 가 알려진 경우 내 대답에 따라 F - 1 ( y ) = i n f ( x : F ( x ) y ) 는 항상 잘 정의되어 있으며 숫자로 해결할 수 있습니다. 그것은 당신이 원하는만큼 빠르지 않을 수 있습니다. 그래서 그것이 문제의 의미라면, 알겠습니다. 만약 당신이 의미하는 것이 아니라면, 문제는 무엇입니까? FF1(y)=inf(x:F(x)y)
Mark L. Stone

7

메일은 그 모멘트 생성 함수에 의해 정의되는 경우 또는 특성 함수 Φ ( t ) = E [ EXP { I t X } ] , 이는 드문 방법을 찾기 위해 이러한 분포에서 생성합니다.ϕ(t)=E[exp{tX}]Φ(t)=E[exp{itX}]

관련 예는 밀도 또는 cdf에 대해 알려진 형태가없고 모멘트 생성 함수가 아니라 닫힌 형태 특성 함수 인 안정 분포α 로 구성됩니다.

베이지안 통계에서 다루기 어려운 가능성 또는 단순히 하나의 컴퓨터에 맞지 않을 정도로 큰 데이터 집합과 관련된 사후 분포는 (정확하게) 시뮬레이션하는 것이 불가능한 것으로 볼 수 있습니다.


모멘트 생성 기능 만 알면 새들 포인트 근사값을 사용한 다음 시뮬레이션 할 수 있습니다.
kjetil b halvorsen

1
@ Xi'an 당신은 "효율적으로"라는 단어를 생략했습니다. 최악의 경우 변환의 숫자 반전을 수치 적으로 뒤집을 수 있습니다. 그것은 아마도 "효율적으로"일하지 않을 것이지만, 그렇게 할 것입니다.
Mark L. Stone

3
@kjetilbhalvorsen : 안장 근사치는 내가 넣은 링크에서 제안 된 솔루션입니다. 그러나 그것은 근사치입니다!
시안

2

Fu(0,1)F1(u)FF1


1

θ=(θ1,...,θd)θj

경우에 따라이 후부에서 대략 샘플링하는 방법이 있지만 현재로서는 정확한 일반적인 방법이 없습니다.


...하지만 문제는 일 변량 분포에 관한 것입니다. MCMC가 수많은 반복 후에도 수렴하지 못하는 복잡한 모델의 예가 많이 있습니다.
Tim

@Tim 그리고 그것이 바로 내가 변이 를 의미하는 한계 후부 라고 말한 이유입니다 . 이것은 일 변량 을 의미합니다 ... 그것은 당신이 요구하는 것을 분명하지 않은 것 같습니다. 처음 두 개의 답은 이론적으로는, 당신이 알고 있다면 어떤 분포에서나 표본 추출이 가능하다는 점에서 분명합니다.
노아

1
OP가 요청한 내용을 명확하게하고 새로운 답변이 나타날 때마다 질문에 대한 답변을 적용 할 수 없게 될 때까지이 질문을 [ON HOLD]로두기로 투표합니다.
노아

나는 하지 내 질문이 조건 유통의 측면에서 선언되어 있기 때문에 ... 이전에 분명히 통계 가능성을 가진 모델과 단 변량 아니다 "새 응답이 나타날 때마다"변경. 사후에서 표본을 추출하면 단 변량이지만, 우리가 이미 한계 분포를 가지고 있다고 가정하여 케이블 내 후부에는 문제가 없다고 생각합니다.
Tim

1
R

1

(qi)i=1P(X=qi)=0ii=1P(X=qi)=0P(XQ)=1

μπ(μ)=1


0

랜덤 생성이 불가능한 일 변량 분포의 예를 제공 할 수 있습니까?

cc

값이 64 비트 부동 소수점 숫자로 합리적으로 추정 될 수있는 임의의 변수 만 샘플링하거나 값의 유한 오류에 대해 비슷한 허용 오차를 가지고 있고 샘플을 튜링 머신으로 나타내지 않은 경우 , 이걸 고려하세요:

XBer(p)p=1c01

0(,c)1[c,)0(,0)c[0,1)1[1,)cxy-중심선. 어떤 샘플링이 가장 어려운지 잘 모르겠으므로 가장 좋아하는 것을 선택하십시오.

"불가능한"이라는 말은 계산적으로 값 비싼 경우를 의미한다고하자. 예를 들어, 샘플을 몇 개만 받아들이려면 엄청난 양의 샘플을 그리는 것과 같은 무차별 시뮬레이션이 필요하다.

이 경우 분명한 대답은 분명해 보입니다.

  • nn
  • 암호화 해시 함수의 사전 이미지를 샘플링하십시오 (예 : 비트 코인 생성 및 자식 및 수은 끊기).
  • 최적의 Go 전략 세트를 샘플링하십시오 (중국 superko 규칙을 사용하면 모든 게임을 내가 아는 한 유한하게 만듭니다).

좀 더 공식적으로 : 나는 당신에게 NP-complete 문제 (또는 EXP-complete 등)의 큰 인스턴스를 제공하고 나에게 일련의 솔루션을 균일하게 샘플링하도록 요청합니다.

R1

주어진 진리 할당이 내 SAT 인스턴스를 충족시키는 지 여부를 쉽게 확인할 수 있으며 어느 것이 든 알고 있는지 모두 확인 했으므로 부울 수식 (또는 회로)을 제공하여 CDF를 완전히 지정했지만 해당 분포를 샘플링하지 않았습니다. 본질적으로 SAT- 해결 가능성 오라클만큼 강력한 것이되어야합니다.


그래서 나는 당신에게 당신의 기어에 모래를 던질 수있는 계산할 수없는 숫자를 주었고, 나는 당신에게 계산이 느린 CDF를주었습니다. 아마도 다음으로 분명한 질문은 다음과 같습니다. CDF가 효율적인 형태로 표현되어 있습니까 (예를 들어 다항식 시간으로 평가 될 수 있는가) 그 분포로 표본을 생성하기 어렵습니까? 나는 그것에 대한 답을 모른다. 나는 그것에 대한 답을 모른다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.