부트 스트랩 vs 몬테카를로, 오류 추정


12

나는 지구 화학 계산에서 Monte Carlo 방법에 의한 오류 전파 기사 Anderson (1976)을 읽고 있으며 이해하지 못하는 것이 있습니다.

일부 측정 데이터 고려 및 프로그램 이이를 처리 복귀 소정 값. 이 기사에서이 프로그램은 먼저 데이터 수단을 사용하여 최상의 값 을 얻는 데 사용됩니다 (예 : ).{ A , B , C }{A±σA,B±σB,C±σC}{A,B,C}

그런 다음 저자는 Monte Carlo 방법을 사용하여 불확실성 한계 내에서 입력 매개 변수를 변경하여 ( 및 표준 편차 )를 프로그램에 보내기 전에. 아래 그림에 설명되어 있습니다.{ σ A , σ B , σ C }{A,B,C}{σA,σB,σC}

여기에 이미지 설명을 입력하십시오

( 저작권 : ScienceDirect )

불확실성은 최종 분포 에서 얻을 수 있습니다 .Z

이 Monte Carlo 방법 대신 부트 스트랩 방법을 적용하면 어떻게됩니까? 이 같은:

여기에 이미지 설명을 입력하십시오

이것은 프로그램에 데이터를 보내기 전에 불확실성 내에서 데이터를 변경하는 대신 데이터를 대체하여 샘플링합니다.

이 경우이 두 방법의 차이점은 무엇입니까? 어떤 경고를 적용하기 전에 알아야 할 사항은 무엇입니까?


이 질문에 대해 알고 있습니다. Bootstrap, Monte Carlo , 그러나이 경우 데이터에 할당 된 불확실성이 포함되어 있기 때문에 의심의 여지가 없습니다.


MC 방법의 "무작위 변화"는 연구원에 의해 무작위로 생성됩니까? 즉, 입력 데이터에 노이즈 / 오류가 인위적으로 추가되고 있습니까?
shadowtalker

측정 된 데이터의 불확실성 (예 : )을 기반으로하여 이러한 오류에 대한 특정 분포 (일반적으로 가우시안)를 가정하여 "임의로 생성" 됩니다. 따라서 오류가 인위적으로 추가되지 않습니다. 입력 데이터에는 측정 과정에서 주어진 관련 오류가 있습니다. σ
Gabriel

나는 이해하지 못한다고 생각합니다. 즉 인공 소음이지만, 데이터로부터 추정 표준 편차
shadowtalker

그렇다면 나는 "인공 소음"이 무엇인지 (그리고 "인공 소음이 아닌 것")을 이해하지 못할 것입니다. 기사를 보셨습니까? 그것은 나보다 훨씬 더 잘 설명합니다.
가브리엘

자연 노이즈 : 내 데이터의 임의 변형입니다. 인공 소음 : 확률 분포에서 숫자를 그리는 난수 발생기를 사용하여 내 데이터에 그 숫자를 추가
shadowtalker

답변:


7

귀하의 질문을 이해하는 한 "Monte Carlo"접근 방식과 부트 스트랩 접근 방법의 차이는 기본적으로 모수 적 통계와 비모수 적 통계의 차이입니다.

파라 메트릭 프레임 워크에서 데이터 이 생성되는 방식을 정확히 알고 있습니다 . 즉, 모델의 매개 변수 (설명에서 , 등)를 고려하면 이러한 데이터 세트를 새로 구현할 수 있습니다 통계 절차 (또는 "출력")의 새로운 실현. 따라서 수학적 도출 또는이 분포에서 임의의 크기의 샘플을 반환하는 Monte Carlo 실험에 의해 출력 의 확률 분포를 완전하고 정확하게 설명 할 수 있습니다 . A σ A Zx1,,xNAσAZ

비모수 적 프레임 워크에서, 데이터에 대해 그러한 가정을하고 싶지 않기 때문에 데이터와 데이터만을 사용하여 분포 를 추정합니다 . 부트 스트랩은 미지의 분포가 표본의 각 점 에서 확률 가중치를 으로 설정하여 만들어진 경험적 분포 에 의해 추정되는 방식입니다 (가장 간단한 경우 데이터가 iid 일 때). 이 실험적 분포 를 실제 분포 의 대체물로 사용하면 Monte Carlo 시뮬레이션에서 출력 의 추정 분포를 도출 할 수 있습니다 .F 1 / N F F ZFF^1/nF^FZ

따라서 두 접근 방식의 주요 차이점은 데이터 분포에 대한 매개 변수 가정을 만드는지 여부입니다.


2
거의 2 년 후, 나는 이것이 매개 변수와 비모수 접근 방식의 차이점을 명시 적으로 언급했기 때문에 이것이 최선의 대답이라고 생각합니다 (그 당시 나는 몰랐습니다). .
Gabriel

그러나 paramrtric 접근법을 위해 parametric bootstrap을 사용할 수도 있습니까?
Tom Wenseleers

12

몬테카를로 모델의 랜덤 변화는 종 곡선으로 표현되며 계산은 아마도 정규 분포 "오류"또는 "변화"를 가정합니다. 최소한, 컴퓨터는 "변경"을 이끌어 낼 분포에 대한 가정이 필요합니다. 부트 스트랩이 반드시 그런 가정을하는 것은 아닙니다. 관측 값을 관측 값으로 취하고 오류가 비대칭 적으로 분포되면 모형으로 이동합니다.

부트 스트랩은 관측치에서 가져 오므로 여러 가지 실제 관측치가 필요합니다. 책을 읽으면 C가 평균 5이며 표준 편차가 1이며, 관측치가 없어도 Monte Carlo Modell을 설정할 수 있습니다. 관측치가 희박한 경우 (천문학) 6 개의 관측치와 분포에 대한 몇 가지 가정으로 Monte Carlo Modell을 설정할 수 있지만 6 개의 관측치에서 부트 스트랩하지는 않습니다.

관측 된 데이터와 일부 시뮬레이션 된 (가설적인) 데이터로부터 도출 된 일부 입력을 갖는 혼합 모형이 가능합니다.

편집 : 의견에 대한 다음 토론에서 원래 포스터는 다음과 같은 유용한 정보를 찾았습니다.

"원래 프로그램"은 값을 얻든 평균과 편차로 계산했는지 또는 자연 과정에서 평균과 편차를 실제로 실현 한 것인지에 대해서는 상관하지 않습니다.


1
답변 베른하르트에 감사합니다! 내 마음에 떠오르는 몇 가지 질문. 1.이 두 방법의 유일한 차이점은 MC가 불확실성에 대한 분포를 가정해야하지만 부트 스트랩은 그렇지 않다는 것입니다. 2. 충분히 큰 데이터 집합이 있고 반복을 여러 번 수행 한 경우 ( )이 두 방법이 최적의 값에 할당 된 추정 된 불확실성에 수렴 됩니까? 3. 부트 스트랩 방법에서 입력 데이터에 할당 된 불확실성을 사용하지 않고 귀중한 데이터를 폐기 하지 않습니까? N
Gabriel

1
나는 통계적으로 / 기계적으로 배우는자가 학습이므로 언급 한 차이점이 유일한 차이점이라고 주장하지는 않을 것입니다. Bootstrapping이 Monte Carlo 방법 자체인지 여부는 확실하지 않습니다. 두 알고리즘 모두 수많은 현실적인 시나리오를 시뮬레이션합니다. 가정 또는 관측치에서 입력을 가져올 수 있습니다. 내 분야는 의학이며 그 분야에서 가정은 잘못되었다. 따라서 나는 충분히 큰 숫자를 사용할 수있을 때마다 관찰을 시도합니다. 물리 나 화학에 더 가까운 분야에서 ...
Bernhard

1
물리 또는 화학에 가까운 분야에서는 가정이 더 신뢰할 수 있습니다. 포인트 2에 대해, 충분히 큰 샘플과 반복으로 가면 실제 데이터가 실제로 정상적으로 분포되지 않으며 가정이 항상 약간 잘못되었다는 것을 알 수 있지만 지식을 주장 할 수는 없습니다. 포인트 3에 관해서 : 나는 부트 스트랩 방법으로 귀중한 데이터를 버림으로써 당신이 의미하는 바를 이해하지는 않았습니다. "불확실성 할당"은 사람이 만든 것이며 데이터는 현실에서 나옵니다. 다시, 이것은 나의 분야에 근거한 나의 믿음입니다. 실제로, 당신은 좋은 이론과 큰 데이터를 거의
Bernhard

1
하여 중요한 데이터를 폐기 내가 부트 스트랩 방법은 데이터에 할당 된 불확실성 전혀 사용하지 않습니다 것을 의미합니다 (예 : )이이 MC 방법은 계정하지만, 부트 스트랩 폐기에 소요되는 "정보"입니다. σA,σB,σC
Gabriel

1
각 관측 값은 측정 된 값이므로 이미 자체 측정 오류와 불확실성이 포함되어 있습니다. "원래 프로그램"은 가치를 얻든 평균과 편차에서 계산했는지 또는 자연 과정에서 평균과 편차를 실제로 실현 한 것인지에 상관하지 않습니다. 물론 모든 리샘플링 기술은 큰 데이터 기반을 사용하므로 임의의 숫자 또는 임의의 숫자를 계산할 수 있지만 일반적으로 임의의 수의 관측을 수행 할 수는 없습니다. 따라서 관측치가 많은 경우 데이터가 삭제되는 위치를 알 수 없습니다.
Bernhard

1

출력 Z를 입력과 관련시키는 함수가 합리적으로 선형 인 경우 (즉, 입력의 변동 범위 내), Z의 분산은 입력의 분산과 공분산의 조합입니다. 분포의 세부 사항은 그다지 중요하지 않습니다 ... 따라서 두 방법 모두 비슷한 결과를 반환해야합니다.

GUM에 대한 부록 1 참조


함수가 리니어 선형 이 아닌 경우 어떻게됩니까 ? 이 두 가지 방법은 어떻게 다릅니 까?
Gabriel

이 경우 Bernhard의 위 답변을 참조하십시오. 즉, 이들이 일치하려면 Monte Carlo의 데이터 pdf에 대한 충실한 설명이 있어야합니다.
Pascal

0

부트 스트랩은 데이터가 스스로 말하게하는 것을 의미합니다. Monte Carlo 방법을 사용하면 균일 한 분포를 통해 부과 된 CDF (정상; 감마; 베타 ...)에서 많은 무작위 추첨을 샘플링하고 경험적 PDF를 작성합니다 (CDF가 연속적이고 파생 가능하다면). 전체 Monte Carlo 과정에 대한 흥미로운 설명은 Briggs A, Schulper M, Claxton K에보고되어 있습니다. 건강 경제 평가를위한 의사 결정 모델. 옥스포드 : Oxford University Press, 2006 : 93-95.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.