계산 통계에서 난수 생성의 중요한 용도는 무엇입니까?

계산 통계에서 난수 생성기 (RNG)가 어떻게 그리고 왜 중요합니까?

나는 어느 가설에 대한 편견을 피하기 위해 많은 통계 테스트를 위해 샘플을 선택할 때 무작위성이 중요하다는 것을 이해하지만 난수 생성기가 중요한 다른 계산 통계 영역이 있습니까?

— Patrick
소스

밀접한 관련 : stats.stackexchange.com/q/135665/35989

— Tim

뭘 물어 보는 거냐? 귀하의 질문은 실제로 의미가 없습니다.

— Carl Witthoft

중요 하지 않은 영역을 요청하는 것이 좋습니다 . 아마도 더 짧은 목록 일 것입니다.

— John Coleman

질문은 광범위하지만 제목은 호소력이 있으며 Matthew의 대답은 훌륭한 개요입니다. 다시 열기로 투표했습니다!

— Benoit Sanchez

이것은 기존의 SE 표준에 의해 너무 광범위하며, 이미 제공된 답변을 종종 복제하는 작고 간결한 답변이 많이 발생할 가능성이 큰 '큰 목록'질문에 해당합니다. 그러나 여기에는 실제 가치가있는 것 같습니다. CW 및 보호를위한 절충안입니다. 앞으로는 정교하지 않은 내용이나 언급 된 중복 사용이 언급 된 답변은 즉시 & 댓글없이 삭제됩니다.

— gung-복직 모니카

답변:

많은 예가 있습니다. 목록에 너무 많은 방법이 있고, 누군가가 완전히 알기에는 너무 많은 방법 일 것입니다.

언급 한 바와 같이, 통제 된 실험 에서 피험자를 치료군과 대조군으로 무작위로 분할함으로써 표본 추출 편향을 피합니다.

부트 스트랩 에서는 고정 샘플에서 대체로 무작위로 샘플링하여 모집단의 반복 샘플링을 근사화합니다. 이를 통해 무엇보다도 추정치의 분산을 추정 할 수 있습니다.

에서 교차 검증 우리는 무작위로 조각으로 우리의 데이터를 분할하고 임의 훈련을 조립 세트를 테스트하여 추정의 샘플 부족 오류를 예상하고있다.

순열 검정 에서는 귀무 가설 하에서 샘플링하기 위해 임의 순열을 사용하여 다양한 상황에서 비모수 적 가설 검정을 수행 할 수 있습니다.

배깅 에서는 훈련 데이터의 부트 스트랩 샘플에 대해 반복적으로 추정을 수행 한 다음 결과를 평균화하여 추정의 분산을 제어합니다.

랜덤 포레스트 에서는 모든 결정 지점에서 사용 가능한 예측 변수로부터 랜덤으로 샘플링하여 추정의 분산을 추가로 제어합니다.

에서 시뮬레이션을 무작위로 우리가 모델에서 유효성 검사 적합성 및 가정을 돕고, 훈련이나 테스트 데이터를 비교할 수있는 새로운 데이터 세트를 생성하기 위해 우리는 적합한 모델을 부탁드립니다.

Markov 체인 Monte Carlo 에서는 Markov 체인을 사용하여 가능한 결과의 공간을 탐색하여 분포에서 표본을 추출합니다 (이 예제의 @Ben Bolker 덕분에).

그것들은 즉시 떠오르는 일반적인 일상 응용 프로그램입니다. 깊이 파고 들었다면 아마도 그 목록의 길이를 두 배로 늘릴 수있을 것입니다. 무작위성은 연구의 중요한 대상이자 휘두르는 중요한 도구입니다.

— Matthew Drury
소스

이것은 모두 사실이지만 주된 문제를 해결하지 못합니다. 시퀀스에 결과 구조 또는 예측 가능성이있는 PRNG는 시뮬레이션에 실패합니다.

— Carl Witthoft

언급해야 할 사항 중 하나는 많은 수의 난수 또는 의사 난수를 생성 하는 계산 및 메모리 비용입니다. 통계에서 RNG를 적용하는 일부 응용 프로그램에는 수억에서 수백만 개의 임의의 숫자가 필요하지만 일부 응용 프로그램에서는이 두 가지 비용을 모두 포함하는 수십 배 더 많은 숫자가 필요합니다.

— Alexis

이것은 모두 사실이지만 주된 문제를 해결 하지 못합니다. 시퀀스에 결과 구조 또는 예측 가능성이 있는 PRNG 는 시뮬레이션에 실패합니다. Carl Witthoft 1 월 31 일 15:51

이것이 귀하의 관심사 인 경우 질문 제목을 "Monte Carlo 결과에 대한 RNG 선택의 영향"또는 이와 유사한 것으로 변경해야합니다. 이 경우 이미 SE cross validation 에서 고려한 몇 가지 지침이 있습니다.

악명 높은 RANDU 와 같이 잘못 설계된 RNG를 고려하고 있다면 Monte Carlo 근사에 부정적인 영향을 줄 것입니다. RNG의 결함을 발견하기 위해 Marsaglia의 Diehard 테스트 와 같은 벤치 마크 뱅크가 있습니다 . (예를 들어 Park & Miller (1988)는 계수가 16807 인 Lehmer 합동 발생기의 사용이 부족 하여 47271 또는 69621로 대체 된 것으로 밝혀졌습니다. 물론 이것은 Mersenne Twister PRNG 와 같은 대규모 기간 발생기에 의해 대체되었습니다 .)
수학에 SE 질문은 하지 않을 경우, 추정 및 정밀에 (또는 그 부족) 매우 도움이 대답에 미치는 영향에 대한 링크를 제공합니다.
Jeff Rosenthal (U Toronto) 는 (Monte Carlo) Markov 체인의 수렴에 대한 RNG의 영향을 연구하는 논문을 가지고 있지만 찾을 수는 없습니다. 최근 RNG 유형에 영향을 미치지 않으면 서 블로그에서 작은 실험을 실행 했습니다 .
- 한편, 온타리오의 복권 제도는 제대로 설계되지 않은 무작위 세대를 사용했으며, 캐나다 토론토의 통계 학자 Mohan Srivastava는이 문제로 인해 온타리오 복권 및 게임 회사에이 문제에 대해 큰 이익을내는 것이 아니라이 문제를 통보했습니다. 허점.
다음은 클래식 네트워크 시뮬레이터가 기본 선택이 잘못되어 영향을받는 경우를 보여줍니다 (위의 Park 및 Miller에 링크 됨).
병렬 컴퓨팅에 사용되는 RNG의 구조 에는 특별한 문제 가 있습니다 . 여러 개의 종자를 사용하는 것은 일반적으로 특히 선형 합동 발생기에 충분하지 않습니다. Michael Mascagni (R 버전 포함 )의 SPRNG (Scalable Parallel Random Number Generation) 패키지 및 Mersenne 트위스터를 사용할 때 독립적 인 스트림을위한 시작 값을 제공하는 C 프로그램 인 Matsumoto의 dynamic creator를 포함하여 많은 접근 방식이 컴퓨터 문헌에서 찾을 수 있습니다. . 이것은 또한 SE 스택 오버플 로에서 해결되었습니다 .
작년 에 폴라 휘트 락 (Paula Whitlock) 이 GNU Scientific Library가 고차원 랜덤 워크의 수렴에 미치는 영향에 대한 이야기 를 보았습니다 .
요약하자면, 소프트웨어와 하드웨어 RNG의 차이점에 대한 문헌 도 있으며 , 심령이 나중에 영향을 줄 수 있다고 주장합니다 !

— 2 개 수정
소스