시뮬레이션 연구 : 반복 횟수를 선택하는 방법?


11

"모델 1"로 데이터를 생성하고 "모델 2"에 맞 춥니 다. 기본 아이디어는 "모델 2"의 견고성 속성을 조사하는 것입니다. 특히 95 % 신뢰 구간 (보통 근사치 기준)의 적용률에 관심이 있습니다.

  • 반복 실행 횟수를 어떻게 설정합니까?
  • 필요한 복제보다 큰 복제가 잘못된 편견을 초래할 수 있습니까? 그렇다면 어떻게됩니까?

"95 % 신뢰 구간의 적용률"이란 무엇입니까? 신뢰 구간이 정확하거나 근사 근사 구간이면 시간의 약 95 % 인 매개 변수의 실제 값을 포함합니다.
Michael R. Chernick

1
모형 1에서 생성 된 데이터에 대해 모형 2를 기반으로 신뢰 구간을 생성하는 경우 두 모형이 관련되어 있으며 동일한 매개 변수 중 일부가 포함되어있는 것으로 보입니다. 좀 더 설명해 주시겠습니까? 또한 두 번째 글 머리 기호에 "가짜"라고 말하면 잘못되었거나 중요하지 않은 것입니까? 많은 수의 시뮬레이션은 바이어스를 생성하지 않아야하지만, 작은 경우에는 보지 못할 실질적인 중요성이 거의없는 바이어스를 나타낼 수 있습니다. 샘플 크기가 매우 큽니다.
Macro

@Michael Chernick : 예를 들어 표준 오류가 너무 작은 경우 범위 미달이 달성 될 수 있습니다. 정규 근사를 기반으로 신뢰 구간을 사용하는 것보다 지정하도록 질문을 편집했습니다.
user7064

@ 매크로 : "모델 1"은이 분산 오차 항을 갖는 정규 데이터를 생성하고 "모델 2"는 표준 선형 모델입니다.
user7064

답변:


10

후속 의견에 따르면 실제 오차 분산이 일정하지 않을 때 일정한 오차 분산을 가정 할 때 신뢰 구간의 적용 확률을 추정하려고하는 것처럼 들립니다.

내가 생각하는 방식은 각 실행에 대해 신뢰 구간이 실제 값을 포함하거나 그렇지 않은 것입니다. 인디케이터 변수를 정의하십시오.

Yi={1if the interval covers0if it does not

그런 다음 관심있는 범위 확률은 이며, 제안한 샘플 비율로 추정 할 수 있습니다.E(Yi)=p

반복 실행 횟수를 어떻게 설정합니까?

우리는 Bernoulli 시행의 분산이 이고 시뮬레이션에서 IID 베르누이 시행을 생성하므로 에 대한 시뮬레이션 기반 추정치의 변동 은 이며 여기서 은 시뮬레이션 수. 이 편차를 원하는만큼 줄이려면 을 선택할 수 있습니다 . 이라는 사실입니다p(1p)pp(1p)/nnn

p(1p)/n1/4n

따라서 분산이 사전 지정된 임계 값 인 보다 작게 하려면 선택하여이를 확인할 수 있습니다 .δn1/4δ

보다 일반적인 설정에서 시뮬레이션을 통해 추정기의 샘플링 분포 특성을 조사하려는 경우 (예 : 평균 및 분산) 유사체에서 달성하고자하는 정밀도에 따라 시뮬레이션 수를 선택할 수 있습니다. 여기에 설명 된 패션.

또한 변수의 평균 (또는 다른 모멘트)이 관심 대상인 경우 여기에서와 같이 정규 근사 (즉, 중심 한계 정리)를 사용하여 시뮬레이션을 기반으로 변수에 대한 신뢰 구간을 구성 할 수 있습니다. , MansT의 좋은 답변에서 설명한 것처럼. 이 정규 근사는 표본 수가 증가함에 따라 더 낫습니다. 따라서 중앙 한계 정리에 호소하여 신뢰 구간을 구성하려는 경우 을 적용하기에 충분히 커야합니다. 이진 경우의 경우 여기에서와 같이 및 가 꽤 온화한 경우에도이 근사치가 양호합니다 예 : .nnpn(1p)20

필요한 복제보다 큰 복제가 잘못된 편견을 초래할 수 있습니까? 그렇다면 어떻게됩니까?

의견에서 언급했듯이 이것은 스퓨리어스의 의미에 달려 있습니다. 많은 수의 시뮬레이션은 통계적 의미에서 바이어스를 생성하지 않지만 천문학적으로 큰 샘플 크기에서만 눈에 띄는 중요하지 않은 바이어스를 나타낼 수 있습니다. 예를 들어, 잘못 지정된 신뢰 구간의 실제 적용 확률이 라고 가정합니다 . 실제로 이것은 실제적인 문제는 아니지만 많은 시뮬레이션을 실행 한 경우에만이 차이를 포착 할 수 있습니다.94.9999%


10

필자는 종종 반복 횟수를 결정하기 위해 신뢰 구간 폭을 빠르고 더러운 방법으로 사용합니다.

하자 "모델 1"의 데이터가 "모델 2"에 장착 할 때 95 % 신뢰 구간의 실제 적용 비율합니다. 경우 횟수가 있음 신뢰 구간 커버의 실제 파라미터 값이 반복 후 .pXnXBin(n,p)

추정기 은 평균 및 표준 편차 입니다. 큰 경우 는 대략 정규이며 은 약 95 % 신뢰 구간을 제공합니다. . 라는 것을 알고 있기 때문에이 간격의 너비는 대략 입니다.p^=X/npp(1p)/nnp^p^±1.96p^(1p^)/npp0.9521.960.950.05/n

너비가 (예 : 신뢰도) 인 신뢰 구간 이 허용 가능 하다고 생각 되면 방정식 을 해결하여 필요한 반복 횟수 을 찾을 수0.1n

0.1=21.960.950.05/n.

이런 식 으로 원하는 정확도를 선택하여 합리적인 을 찾을 수 있습니다 .n


(+1) 거의 비슷한 시간에 비슷한 답변을 제출 한 것처럼 보이지만 사용되는 언어가 다른 사람들에게 유용 할 수 있습니다.
Macro

예, 실제로, 나는 여전히 어떤 대답을 받아 들여야할지 모르겠습니다! 어쨌든, 둘 다 +1!
user7064 2009 년

1
@ 매크로 : 당신에게 +1. 여기서 분산과 간격 폭은 다소 비슷합니다. 좋은 생각은 똑같이 생각하고 우리도 똑같이 생각합니다. ;)
MånsT

@ MånsT CI 너비가 0.01 인 경우 적용률이 90 % 인 경우 필요한 반복 횟수는 합니다. 95 % CI? 이 CI는 비례 추정치입니다. 이항 모형의 표본 크기 (CI를 찾기 위해 Quantile을 선택)가 적용 범위 확률에 어떤 영향을 줍니까? n=(21.650.950.05/0.01)2
Gore

0

시뮬레이션을 수행하는 경우 필요한 최소 실행 횟수는 목표에 따라 달라집니다 (무엇을 추정하려고하며 정확도는 무엇입니까?). 평균 반응을 추정하려는 경우 표본 평균의 표준 편차는 입니다. 따라서 가 신뢰 구간에 필요한 반폭 인 경우 또는 .Population Standard Deviationnd95%d=1.96×Pop.Std.Devnn=(1.96×Pop.Std.Dev)2d2

더 많은 시뮬레이션을 수행하면 (임의의 프로세스에 의해 생성 된 모든 샘플을 가정 할 경우) 정확도 또는 바이어스 측면에서 추정에 아무런 영향을 미치지 않습니다.

근사 신뢰 구간의 적용 범위는 원하는 의 정확한 적용 범위 와 다르며 적용 범위의 오류는 이 증가함에 따라 감소해야합니다 . Macro 및 MansT에서 언급했듯이 이항 비율의 분산이 몬테 카를로의 적용 범위 추정치에 바인딩 할 수 있습니다 .95%np(1p)n


4
안녕하세요 @Michael. 이 답변이 요점을 놓친 것 같습니다. OP는 일정 분산을 가정하지만 실제 분산이 일정하지 않은 경우 신뢰 구간의 적용 범위 속성이 어떻게 변경되는지 조사하려고합니다.
Macro

@ 매크로 : 당신이 맞아요. 나는 일정한 분산을 가정하는 문제와 관련된 답변을 피하기 위해 의도적으로 더 넓은 맥락에서 질문을 넣었습니다.
user7064

@ 매크로 그것은 내가 대답 한 질문의 일부가 아니 었습니다. 분명히 그것은 나중에 명확 해졌습니다. 또한 관심있는 것은 정규 근사를 사용하는 신뢰 구간의 정확도 인 것으로 보입니다. 이것은 어떤 대답에서도 다루어지지 않는 것 같습니다.
Michael R. Chernick

4
@Michael, 예, 알고 있습니다-제 요점은 당신 (그리고 나)이 설명을 요구하는 것 이상이지만 대답을 게시하기 전에 설명을 기다리지 않았습니다. 다시 : 두 번째 의견은 일반적인 근사를 기반으로했는지 여부에 관계없이 이러한 방식으로 모든 간격의 적용 범위 속성을 조사 할 수 있습니다. 기존 답변에서 누락 된 추가 할 것이 있다고 생각되면 답변을 편집하여 모두 배울 수 있습니다.
Macro

@ 매크로 물론 동의합니다. OP의 이익을 위해 답변을 편집했습니다. 나는 당신이 아직 모르는 내용에 아무것도 없다고 생각합니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.