동일한 분포에서 도출 된 충분히 많은 관측치의 중앙값을 계산하면 중앙값의 중앙값 분포가 정규 분포에 근사 할 것입니까? 내 이해는 이것이 많은 수의 샘플을 사용하면 사실이지만 중간 값에서도 사실이라는 것입니다.
그렇지 않은 경우 샘플 중앙값의 기본 분포는 무엇입니까?
동일한 분포에서 도출 된 충분히 많은 관측치의 중앙값을 계산하면 중앙값의 중앙값 분포가 정규 분포에 근사 할 것입니까? 내 이해는 이것이 많은 수의 샘플을 사용하면 사실이지만 중간 값에서도 사실이라는 것입니다.
그렇지 않은 경우 샘플 중앙값의 기본 분포는 무엇입니까?
답변:
당신은 표시기 변수의 관점에서 작업하는 경우 (즉, 경우 와 , 그렇지), 직접의 평균을 중심 극한 정리에 적용 할 수 및 사용하여의를 델타 방법을 ,로 그 차례 대한 점근 정규 분포 , 이는 고정 된 Quantile에 대해 점근 정규성을 얻음을 의미합니다 .F - 1 X ( ˉ Z ) X
따라서 중앙값뿐만 아니라 사 분위수, 90 번째 백분위 수 등 ...
느슨하게, 우리가 충분히 큰 샘플에서 번째 샘플 양자에 대해 이야기하고 있다면 , 대략 번째 인구 Quantile 및 분산 갖는 정규 분포를 가질 것입니다. .
따라서 중앙값 ( )의 경우 충분히 큰 표본의 분산은 대략 입니다.
물론 잡아야 할 모든 조건이 필요하기 때문에 모든 상황에서 작동하지는 않지만 인구 Quantile의 밀도가 긍정적이고 차별화 가능한 연속 분포의 경우 ...
또한 CLT가 거기에 들어 가지 않기 때문에 극단적 인 Quantile을 유지하지 않습니다 (Z의 평균은 무의식적으로 정상적이지 않습니다). 극단적 인 가치에 대해서는 다른 이론이 필요합니다.
편집 : whuber의 비판은 정확합니다. 이것은 가 표본 중앙값이 아닌 집단 중앙값 인 경우에 효과적입니다. 실제로 제대로 작동하려면 인수를 수정해야합니다.
핵심 아이디어는 중앙값의 샘플링 분포가 분포 함수로 표현하기 쉽지만 중앙값으로 표현하기가 더 복잡하다는 것입니다. 분포 함수가 값을 확률로 다시 표현하고 다시 되돌릴 수있는 방법을 이해 하면 중앙값 의 정확한 샘플링 분포를 쉽게 도출 할 수 있습니다. 중앙값 근처에서 분포 함수의 동작을 약간 분석하면 이것이 무정형 정상임을 알 수 있습니다.
(중앙값뿐만 아니라 모든 Quantile의 샘플링 분포에 대해 동일한 분석이 작동합니다.)
나는이 박람회에서 엄격한 시도를하지 않을 것이지만, 그렇게 할 마음이 있다면 엄격한 방식으로 쉽게 정당화되는 단계를 수행합니다.
다음은 70 원자의 뜨거운 원자 가스를 포함하는 상자의 스냅 샷입니다.
각 이미지에서 나는 빨간 수직선으로 표시된 위치를 찾았는데, 이것은 왼쪽 (검은 점으로 그려진)과 오른쪽 (흰색 점) 사이에 원자를 두 개의 동일한 그룹으로 나눕니다. 이것은 위치 의 중앙값 입니다 : 원자 중 35 개가 왼쪽에 있고 35 개가 오른쪽에 있습니다. 원자가 상자 주위에서 무작위로 움직이기 때문에 중앙값이 변경됩니다.
우리는이 중간 위치의 분포에 관심이 있습니다. 이러한 질문은 내 절차를 반대로함으로써 대답합니다. 먼저 위치에 세로선을 그려 봅시다 . 원자의 절반이 의 왼쪽에 있고 절반이 오른쪽에 있을 가능성은 무엇입니까 ? 왼쪽의 원자들은 개별적으로 가 왼쪽에있을 확률을 가졌습니다 . 오른쪽의 원자들은 개별적으로 확률 이 오른쪽에있을 수 있습니다. 그들의 위치가 통계적으로 독립적이라고 가정하면, 이 특정 구성의 기회에 대해 를 제공 할 가능성이 배가 됩니다. 개의 원자를 두 개의 개로 다른 분할에 대해 동등한 구성을 얻을 수 있습니다.x x 1 − x x 35 ( 1 − x ) 35 70 35요소 조각. 가능한 모든 분할에 대해이 숫자를 추가하면
여기서 은 총 원자 수이고 는 원자가 두 개의 동일한 하위 그룹으로 분할 된 수에 비례합니다 .
이 공식은 중앙값의 분포를 베타 분포 로 식별합니다 .
이제 더 복잡한 모양의 상자를 고려하십시오.
다시 한번 중앙값이 다양합니다. 박스 중앙 부근 낮기 때문에,이 부피의 대부분이없는 다음의 작은 변화 볼륨 원자의 왼쪽 절반에 의해 점유가 (다시 한 번 검은 사람) - 또는, 우리는뿐만 아니라 인정할 수도, 영역 이들 도면에 도시 된 바와 같이 좌측으로 일 -에 비교적 큰 변화에 대응하는 수평 위치 중앙값 중. 실제로, 박스의 작은 수평 섹션에 의해 가해진 면적은 그 높이에 비례하기 때문에, 중앙값의 변화 는 박스의 높이 로 나뉩니다 . 이렇게하면 정사각형 상자보다이 상자의 중앙값이 더 가변적 일 수 있습니다. 중간 값이 훨씬 낮기 때문입니다.
요컨대, 면적 (좌우) 측면에서 중앙값의 위치를 측정 할 때 , 원래 분석 (사각 상자)은 변하지 않습니다. 상자의 모양은 수평 위치를 기준으로 중앙값을 측정 해야하는 경우에만 분포를 복잡하게 만듭니다. 그렇게 할 때, 면적과 위치 표현 간의 관계는 상자의 높이에 반비례합니다.
이 그림들에서 더 많은 것을 배울 수 있습니다. 상자에 원자가 거의 없을 때 원자의 절반이 우연히 양쪽으로 클러스터링 될 가능성이 더 큽니다. 원자의 수가 증가함에 따라 그러한 극단적 불균형의 가능성이 줄어 듭니다. 이 문제를 추적하기 위해 , , , 마지막으로 원자로 채워진 곡면 상자에 대해 "영화"(5000 시리즈의 긴 시리즈)를 가져 와서 중간 값을 기록했습니다. 중간 위치의 히스토그램은 다음과 같습니다.15 75 375
분명히, 충분히 많은 수의 원자에 대해, 그들의 평균 위치의 분포는 종 모양으로 보이고 더 좁아지기 시작합니다. 그것은 중앙 한계 정리 결과처럼 보이지 않습니까?
물론 "상자"는 일부 분포의 확률 밀도를 나타냅니다. 맨 위는 밀도 함수 (PDF)의 그래프입니다. 따라서 영역은 확률을 나타냅니다. 상자 내에서 점을 무작위로 독립적으로 배치 하고 수평 위치를 관찰하는 것은 분포에서 표본을 추출하는 한 가지 방법입니다. (이것은 거절 샘플링 의 아이디어 입니다. )
다음 그림은 이러한 아이디어를 연결합니다.
복잡해 보이지만 실제로는 매우 간단합니다. 여기에 네 가지 관련 플롯이 있습니다.
상단 그림은 크기 임의의 하나의 표본과 함께 분포의 PDF를 보여줍니다 . 중앙값보다 큰 값은 흰색 점으로 표시됩니다. 중앙값보다 작은 값은 검은 점으로 표시됩니다. 우리는 총 면적이 단일임을 알고 있기 때문에 수직 스케일이 필요하지 않습니다.
중간 그림은 동일한 분포에 대한 누적 분포 함수입니다 . 높이 를 사용하여 확률을 나타냅니다. 수평 축을 첫 번째 플롯과 공유합니다. 세로축 은 확률을 나타내므로 에서 로 이동해야합니다 .
왼쪽 그림은 옆으로 읽어야합니다. 베타 분포 의 PDF입니다 . 중간 위치가 수평 위치가 아닌 중앙의 왼쪽과 오른쪽 영역에서 측정 될 때 상자의 중앙값이 어떻게 변하는 지 보여줍니다 . I는 그린 와 같이,이 PDF로 무작위 포인트, 원래 CDF에 대응하는 위치에 수평 점선으로 그들을 연결 :이 볼륨 (왼쪽에서 측정) 상부, 중앙부를 가로 질러 측정 된 (위치로 변환하는 방법이며 하단 그래픽). 이러한 점 중 하나는 실제로 상단 그림에 표시된 중앙값에 해당합니다. 나는 그것을 보여주기 위해 단단한 수직선을 그렸습니다.
하단 플롯은 수평 위치로 측정 한 중앙값의 샘플링 밀도입니다 . 영역 (왼쪽 그림에서)을 위치로 변환하여 얻습니다. 변환 공식은 원본 CDF의 역으로 제공됩니다. 이것은 단순히 역 CDF 의 정의 입니다! 즉, CDF는 위치를 왼쪽으로 영역으로 변환하고 역 CDF는 영역에서 위치로 다시 변환합니다. 왼쪽 플롯의 임의의 점이 하단 플롯 내에서 임의의 점으로 변환되는 방법을 보여주는 세로 점선을 그렸습니다. . 이 글을 읽고 내리는이 과정은 우리가 지역을 어떻게 이동해야하는지 알려줍니다.
하자 하여 원래의 분포의 CDF (중간 플롯)와 수 베타 분포의 CDF. 중앙값이 일부 위치 의 왼쪽에있을 확률을 찾으려면 먼저 를 사용 하여 상자에서 왼쪽의 면적 을 구하십시오 . 이것이 자체입니다. 왼쪽의 베타 분포는 우리에게 원자의 절반이이 부피 내에 놓여 제공 할 가능성을 알려줍니다 : 이것은 중간 위치 의 CDF입니다 . 아래 그림에 표시된대로 PDF를 찾으려면 파생 상품을 사용하십시오.
여기서 는 PDF (상단 플롯)이고 는 베타 PDF (왼쪽 플롯)입니다.
이것은 연속 분포 의 중앙값 분포에 대한 정확한 공식입니다 . (해석에 약간의주의를 기울이면 연속적이든 아니든 모든 분포에 적용 할 수 있습니다.)
때 매우 큰이며, 그 중간에 점프가없는 샘플 평균은 실제 평균의 주위에 밀접하게 변화해야한다 분포. 또한 PDF의 가정 근처 연속 , 앞의 수식에서의 값에서 크게 변하지 않을 것이다에 주어진 또한, 는 그 값에서 1 차로,
따라서 이 커짐에 따라 근사치가 계속 향상 되면서
이는 베타 배포의 위치와 규모의 변화 일뿐입니다. 크기를 조정 하면 분산이 (제로가 아닌 것이 좋습니다 로 나눕니다 . 또한 베타 의 분산은 매우 가깝습니다 .
이 분석은 델타 방법 의 적용으로 볼 수 있습니다 .
마지막으로 베타 는 큰 대해 대략 보통입니다 . 이것을 보는 방법에는 여러 가지가 있습니다. 아마도 가장 간단한 것은 PDF의 로그를 근처에서 보는 것입니다 .
상수 와 단순히 총 면적을 1로 정규화합니다. 3 차 순서를 통해 이것은 분산을 갖는 일반 PDF의 로그와 동일합니다 (이 주장은 PDF 로그 대신 특성 또는 누적 생성 함수를 사용하여 엄격하게 이루어집니다.)
이를 종합하면 다음과 같은 결론을 얻습니다.
표본 중앙값의 분포는 대략 ,
그리고 큰 경우 대략 보통입니다 .
PDF 가 중간 값 에서 연속적이고 0이 아닌 경우 모두
R
사용하여 같은 것을 만들 수 layout
있었지만 실제로는 Mathematica 9 로 수행되었습니다.
@EngrStudent 조명 답변은 분포가 연속적 일 때와 불연속 적일 때 (샘플 중앙값의 점근 적 분포가 정상적으로 보이지 않는 경우 "빨간색"그래프) 분포가 이항 분포에 해당 할 때 다른 결과를 기대해야한다고 알려줍니다 . (3), 기하학 (11), 초 지오메트리 (12), 음 이항 (14), 푸 아송 (18), 이산 제복 (22).
그리고 이것이 사실입니다. 분포가 불 연속적이면 상황이 복잡해집니다. 나는 본질적으로 @Glen_b에 의해 이미 주어진 답변을 자세히 설명하는 것 이상으로 절대적으로 연속적인 사례에 대한 증거를 제공 할 것이며, 배포가 불연속적일 때 발생하는 일에 대해 조금 이야기하고 다이빙에 관심이있는 모든 사람들에게 최근의 참조를 제공 할 것입니다. 에서.
절대적 연속 분포 분포 함수 (cdf)를 갖는
iid 절대 연속 랜덤 변수 의 집합을 고려하십시오. 및 밀도 함수 . 정의하십시오. 여기서 는 표시기 기능입니다. 따라서 는 Bernoulli rv이며
하자 고정 정의 이러한 IID Bernoullis의 표본 평균 일 수 로
것을 의미
중앙 한계 정리가 적용되며
즉 경험적 분포 함수 이외의 것이 유의하십시오 . "델타 방법 (Delta Method)"을 적용함으로써 관심 지점에서 0이 아닌 미분 를 갖는 연속적이고 차별화 가능한 함수 에 대해
이제 여기서 은 역함수를 나타냅니다. 이것은 이므로 연속적이고 차별화 가능한 함수 이며, 역함수 정리에 의해
이 결과를 델타 방법 파생 점근 결과에서 에 삽입
그리고 단순화,
.. 모든 고정 . 이제 모집단의 (평균) 중앙값 설정 하십시오. 그런 다음 이고 위의 일반적인 결과는 관심있는 경우입니다.
그러나 은 샘플 중앙값 수렴됩니다 . 이 때문입니다
불평등의 우변은 수렴하고 결과적으로 되는 가장 작은 는 표본 중앙값입니다.
그래서 우리는
이산 분포
분포가 불연속 적일 때 (또는 표본에 타이가 포함 된 경우) 표본 Quantile의 "고전적인"정의와 그에 따른 중앙값도 이론적 개념 인 이론적 개념으로 오해의 소지 가 있다고 주장했습니다 . Quantiles로 측정하려는 것을 측정하기 위해 사용됩니다.
어쨌든이 고전적 정의 (모두 우리가 아는 것)에서 표본 중앙값의 점근 분포는 비정규 분포와 불연속 분포라는 것이 시뮬레이션되었습니다.
샘플 Quantile의 다른 정의는 로 정의 된 "중간 분포"함수의 개념을 사용하는 것입니다.
중간 분포 함수의 개념을 통한 샘플 Quantile 정의는 특수한 경우 연속 분포뿐만 아니라 비 연속 분포도 포함 할 수있는 일반화로 볼 수 있습니다.
불연속 분포의 경우, 다른 결과 중에서도이 개념을 통해 정의 된 표본 중앙값은 정교하게 보이는 분산으로 무증상 정규 분포를 갖는 것으로 나타났습니다.
이 중 대부분은 최근 결과입니다. 참고 문헌은 Ma, Y., Genton, MG, & Parzen, E. (2011)입니다. 불연속 분포의 표본 Quantile의 점근 적 특성. 통계 수학 연구소의 연대기, 63 (2), 227-243. , 여기에서 오래된 관련 문헌에 대한 토론과 링크를 찾을 수 있습니다.
그렇습니다. 중앙값뿐만 아니라 모든 샘플 Quantile입니다. 에서 복사 본 논문 TS 퍼거슨, UCLA 교수 (자신의 페이지가 쓴, 여기에 흥미로운 표본 평균과 표본 분위의 공동 분배를 다루는), 우리는이 :
보자 은 분포 함수 , 밀도 , 평균 및 유한 분산 로 iid입니다 . 하자 및하자 나타낸다 의 번째 분위수 되도록, . 밀도 가 에서 연속적이고 양수 라고 가정합니다 . 하자 샘플 나타내는 번째 분위수를. 그때
를 들어 (중간), 그리고 당신이 중간 값의 CLT를 가지고,
Glen_b의 분석 답변이 마음에 듭니다. 좋은 대답입니다.
사진이 필요합니다. 나는 사진을 좋아한다.
다음은 질문에 대한 답변의 탄력 영역입니다.
표준 법선을 위해 다음 MatLab 코드를 사용했습니다.
mysamples=1000;
loops=10000;
y1=median(normrnd(0,1,mysamples,loops));
cdfplot(y1)
그리고 다음 플롯을 출력으로 얻었습니다.
그렇다면 prob-plots (직선이 매우 평범한 것을 의미하는)를 사용하는 것을 제외하고 다른 22 개 정도의 "내장"분포에 대해 왜 그렇게하지 않겠습니까?
그리고 여기에 대한 소스 코드가 있습니다 :
mysamples=1000;
loops=600;
y=zeros(loops,23);
y(:,1)=median(random('Normal', 0,1,mysamples,loops));
y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));
y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));
y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));
y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));
y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));
figure(1); clf
hold on
for i=2:23
subplot(4,6,i-1)
probplot(y(:,i))
title(['Probplot of ' num2str(i)])
axis tight
if not(isempty(find(i==[3,11,12,14,18,22])))
set(gca,'Color','r')
end
end
분석적 증거를 볼 때 "이론적으로는 모두 적합 할 것"이라고 생각할 수 있지만, 시도해 볼 때 "이 방법이 제대로 작동하지 않는 여러 가지 방법이 있으며, 종종 불연속 적이거나 고도로 제약을받습니다." 가치 "라고 생각하면 돈이 드는 모든 것에 이론을 적용하는 데 더주의를 기울여야 할 것입니다.
행운을 빕니다.