큰 샘플 점근선 / 이론-신경 써야하는 이유?


13

이 질문이 "너무 일반적인 것"으로 표시되지 않기를 바라며, 모든 혜택을 얻는 토론이 시작되기를 바랍니다.

통계에서 우리는 큰 표본 이론을 배우는 데 많은 시간을 소비합니다. 우리는 무증상 편향, 무증상 효율성, 점근 분포 등을 포함한 평가자의 점근 적 특성 평가에 깊은 관심을 가지고 있습니다. 점근선이라는 단어는 라는 가정과 밀접한 관련이 있습니다.n

그러나 실제로 우리는 항상 유한 합니다. 내 질문은 :n

1) 큰 샘플은 무엇을 의미합니까? 작은 샘플과 큰 샘플을 어떻게 구별 할 수 있습니까?

2) 라고 말할 때 , 문자 그대로 은 로 가야 한다는 것을 의미 합니까?n nn

이항 분포의 경우 는 CLT에서 정규 분포로 수렴하려면 약 n = 30이 필요합니다. 또는이 경우 가 30 이상을 의미 합니까 ?! nX¯n

3) 유한 표본이 있다고 가정하고 추정기의 점근 적 행동에 대한 모든 것을 알고 있다고 가정하십시오. 그래서 무엇? 추정값이 무의식적으로 편향되어 있지 않다고 가정하면 유한 표본에 대한 관심 매개 변수에 대한 편향 추정값이 있습니까? 아니면 이면 편향되지 않은 것입니까?n

위의 질문에서 알 수 있듯이 "큰 표본 무증상"의 철학을 이해하고 왜 우리가 관심을 갖는지 배우려고 노력하고 있습니까? 내가 배우고있는 정리에 대한 직관이 필요합니다.


5
대량 표본 거동은 주어진 추정량이 무한한 데이터의 한계 내에서 작동한다는 것을 보여주는 한 가지 방법입니다. 당신은 반드시 우리에게 추정이 실제로 얼마나 잘 대해 아무것도 말하지 않는 권리 것을,하지만 그것은 첫 번째 단계 : 당신은의 추정에 사용할 않을 것 하지 점근 적 일치 (또는 무엇이든). 점근 분석의 장점은 유한 샘플 분석보다 계산하기가 더 쉽다는 것입니다.
Dougal

1 차 점근 적 정규성에만 익숙하기 때문에 고차원 무증상으로 읽기 시작해야합니다. 그것으로, 당신 아직 점근 적 행동에 관한 모든 것을 알지 못합니다. "나는 라는 것을 알고 있습니다 . 왜 모든 사람들이 사인이 주기적이라고 말합니까?". sinx=x
StasK

1
이항 분포의 경우 은 나쁜 기준입니다. 당신이있는 경우 및 , 평균 = 0.03 및 SD가 = 0.173, 따라서 액면 이항 변수가 정상 근사 통해 영하 일 가능성이 거의 제로에 대한 수용 가능한 근사하지 43 % 인 . 더 나은 규칙은 제안 하며 이러한 높은 순서 문제를 설명합니다. n>30p=0.001n=30nmin(p,1p)>15
StasK

답변:


6

안하는 것보다 늦게하는 것이 낫다. 우리가 추정기의 점근 적 편견 (일관성)에 초점을 두는 세 가지 (중요하다고 생각되는) 이유를 먼저 설명하겠습니다.

a) 일관성은 최소 기준입니다. 많은 데이터로도 추정기가 정확하게 추정하지 못하면 어떤 이점이 있습니까? 이것이 바로 Wooldridge : 입문 계량 경제학의 정당성입니다.

b) 유한 샘플 속성은 증명하기가 훨씬 어렵습니다 (또는 점근선 표현이 더 쉽습니다). 나는 현재 약간의 연구를하고 있으며 큰 샘플 도구에 의존 할 때마다 훨씬 쉬워집니다. 많은 수의 법칙, martingale 수렴 정리 등은 점근 적 결과를 얻는 데 유용한 도구이지만 유한 샘플에는 도움이되지 않습니다. 하야시 (Hayashi, 2000) : 계량 경제학 (Econometrics)에 이러한 선을 따라 무언가가 언급되어 있다고 생각합니다.

c) 작은 샘플에 대해 추정기가 바이어스되면 작은 샘플 수정으로 잠재적으로 수정하거나 적어도 개선 할 수 있습니다. 이들은 종종 이론적으로 복잡합니다 (수정없이 추정기에서 향상됨을 증명하기 위해). 또한 대부분의 사람들은 큰 샘플에 의존하는 것이 좋으므로 적은 양의 샘플 수정은 표준 통계 소프트웨어에서 구현되지 않습니다. 더 적은 수의 사람들 만 필요로하기 때문입니다 (더 많은 데이터를 얻을 수없고 편견에 신경 쓰지 않는 사람들). 따라서 이러한 드문 수정을 사용하는 데에는 특정한 장벽이 있습니다.

당신의 질문에. "큰 샘플"은 무엇을 의미합니까? 이는 상황에 따라 크게 다르며 특정 도구의 경우 시뮬레이션을 통해 대답 할 수 있습니다. 즉, 인위적으로 데이터를 생성하고 거부율이 샘플 크기의 함수로 작동하는지 또는 바이어스가 샘플 크기의 함수로 동작하는 방법을 볼 수 있습니다. 저자가 OLS 클러스터 표준 오류, 부트 스트랩 표준 오류 차단 등에 걸리는 클러스터 수를 확인할 수 있는 구체적인 예가 여기 있습니다. 일부 이론가들은 또한 수렴 률에 대한 진술을 가지고 있지만 실제적인 목적으로 시뮬레이션은 더 유익한 것으로 보입니다.

실제로 합니까? 그것이 이론이 말하는 것이라면, 그렇습니다. 그러나 응용에서 우리는 작고 무시할만한 편견을 받아 들일 수 있습니다. 충분히 의미하는 것은 상황에 달려 있습니다. 위를 참조하십시오.n

질문 3에서, 일반적으로 편견 (모든 표본 크기에 대한)과 일관성 (대규모 표본에 대한 편견)에 대한 문제는 별도로 고려됩니다. 추정기는 편향 될 수 있지만 일관성이 있으며,이 경우 실제로는 큰 표본 추정치 만 편향되지 않습니다. 그러나 편견이없고 일관된 추정값이 있으며 이론적으로 모든 표본 크기에 적용 할 수 있습니다. ( 추정자는 기술적 인 이유로 편견이 없지만 일관성이 없을 수 있습니다. )

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.