이 단일 값이 해당 분포와 일치합니까?


10

이것은 매우 순진한 질문처럼 느껴지지만 대답을 보는 데 어려움이 있습니다.

한 세트의 30 개 값이 있습니다. 독립적으로 나는 31 번째 가치를 얻었습니다. 귀무 가설은 31 번째 값이 같은 분포의 일부라는 것입니다. 대안은 그것의 다른 것입니다. 일종의 p- 값 또는 가능성 측정을 원합니다.

내가 가진 몇 가지 생각 :

  • 이것은 두 표본 t- 검정을 수행하는 것과 유사합니다. 두 번째 표본의 경우 단일 값만 있고 30 개의 값이 반드시 정규 분포를 따르는 것은 아닙니다.
  • 30 회 측정 대신 10000 회 측정을 수행 한 경우 단일 측정의 순위가 유용한 정보를 제공 할 수 있습니다.

이 가능성 또는 p- 값을 어떻게 계산할 수 있습니까?

감사! 야닉


4
당신은 예측 간격을 요구하고 있습니다. 당신의 두 번째 생각은 비모수 적 예측 간격으로 이어집니다 (이 사이트에서는 이전에 언급되지 않았다고 생각합니다).
whuber

당신의 인구에 대해 더 말할 수 있습니까? 모든 값이 양수입니까? 대칭 일 것으로 기대하십니까? 유니모 달?
soakley

감사와 사과 더 많은 정보를 제공했을 것입니다. 예측 구간을 살펴보고 있습니다. 기본적으로 우리는 초점 유전자 예측의 길이를 가지고 있습니다. 그리고 데이터베이스에서 발견되는 비슷한 유전자의 길이. 따라서 모든 숫자는 양의 정수입니다. 쉬운 경우 길이의 분포는 단조롭습니다. 실제로 그들은 종종 그렇지 않습니다. 이 단계에서 우리는 그들이 있다고 가정 할 수 있습니다. 배포판의 일부 플롯이 여기에 표시됩니다 : github.com/monicadragan/gene_prediction/tree/master/...을
야닉 WURM을

나는 우리가 "예측 구간"을 원한다고 확신하지 못한다. 우리는 예측하고 싶지 않다. 그리고 우리는 구간을 원하지 않는다.
Yannick Wurm 2016 년

1
기술 용어를 과도하게 해석하지 마십시오. 정의에 의해, "예측 구간은" 로부터 구성되고 와 같은 방법으로 값이 모두의 조인트 분포 가정하에 내의 31 값 놓 기회 주어진 타겟 동일, 예컨대 95 %. 실제로 31 번째 값이 내에 있지 않으면 (i) 운이 좋지 않은 것 (데이터를 수집하기 전에 5 %의 확률 만 발생 했음) 또는 (ii) 실제로는 그렇지 않다는 결론을 내릴 수 있습니다. 31 번째 값이 당신이 생각한 분포를 가지고있는 경우 : 그것은 당신이 테스트하고자하는 것입니다. I3031II
whuber

답변:


7

단조로운 경우 Vysochanskij-Petunin 불평등은 대략적인 예측 간격을 제공 할 수 있습니다. wikipedia 사이트는 다음과 같습니다. http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

사용 하면 대략 95 %의 예측 간격이 발생합니다.λ=3

따라서 모집단의 평균 및 표준 편차를 추정하고 표본 평균 더하기 또는 빼기 을 구간으로 사용하십시오.x¯3s

이 방법에는 몇 가지 문제가 있습니다. 실제로 평균 또는 표준 편차를 모릅니다. 당신은 견적을 사용하고 있습니다. 그리고 일반적으로 단봉 분포가 없으므로 체비 쇼프 불평등의 특수 버전을 사용해야합니다. 그러나 최소한 출발점이 있습니다.

일반적인 경우, Konijn (1987 년 2 월 미국 통계 학자)은 순서 통계가 예측 간격으로 사용될 수 있다고 말합니다. 따라서 는 Konijn이 이라고 부르는 의 예측 간격입니다[x(i),x(j)]Xjin+1.크기는 구간이X 이 방법을 사용하면 93.6 %의 예측 간격이 [x(1),x(30)].

또한 Saw, Yang 및 Mo의 접근 방식도 제공합니다.

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],
기사에 주어진 적용 범위에 대한 세부 사항.

예를 들어 n=30, 사용 λ=3.2 적용 범위가 90 %를 초과합니다.


이것은 부등식을 잘못 적용한 것으로 보입니다. 평균과 분산이 알려져 있다고 가정합니다 . 여기서 분산은이 컨텍스트의 데이터에서만 추정 할 수 있습니다. 특히 작은 데이터 세트의 경우 차이가 클 수 있습니다. 체비 쇼프의 불평등에 대한 유사한 제안에 대한 시뮬레이션 연구에서 나는 놀랍게도 성능이 떨어지는 것을 발견했습니다. 직관적으로 이것은 CI 구성을 위해 정규 분포 대신 t 분포를 사용해야한다는 학생의 통찰과 유사합니다. PI는 꼬리에서 훨씬 더 "밖으로"있기 때문에 차이가 확대됩니다.
whuber

2
편집 (+1) : 비모수 적 예측 구간은 iid null 가정에서 순열 테스트로 이해 될 수 있습니다. 이 경우에는2/316.4531 번째 값이 모든 31 개 값 중 가장 크거나 가장 작을 확률 연관된 테스트 는 31 번째 값이 가장 작거나 가장 클 때 다른 30과 일치하지 않는다는 결론을 내립니다. 이 테스트의 크기는 ( 보통의 의미에서 )6.45%. 30 개의 데이터 값으로 (양면) 테스트를 위해 달성 할 수있는 가장 작은 크기입니다.
whuber

1

내가 가진 몇 가지 생각 :

이것은 두 표본 t- 검정을 수행하는 것과 유사합니다. 두 번째 표본의 경우 단일 값만 있고 30 개의 값이 반드시 정규 분포를 따르는 것은 아닙니다.

옳은. 아이디어는 단일 값을 가진 t- 테스트와 조금 비슷합니다. 분포를 알 수 없으며 30 개의 데이터 포인트 만있는 정규성은 삼키기가 다소 어려울 수 있으므로 일종의 비모수 적 테스트가 필요합니다.

30 회 측정 대신 10000 회 측정을 수행 한 경우 단일 측정의 순위가 유용한 정보를 제공 할 수 있습니다.

30 회 측정하더라도 순위가 유익 할 수 있습니다.

@ whuber가 지적했듯이 일종의 예측 간격을 원합니다. 비모수 적 사례의 경우 본질적으로 묻는 것은 다음과 같습니다. 주어진 데이터 포인트가 우연히 31 번째 측정에서 관찰 한 순위를 가질 확률 은 얼마입니까?

이는 간단한 순열 테스트를 통해 해결할 수 있습니다. 다음은 15 개의 값을 가진 예제와 실제로 이전의 것보다 큰 소설 (16 번째 관측 값)입니다.

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

우리는 N 순열을 수행 하여 목록의 요소 순서가 섞인 다음 질문을합니다. (셔플 된) 목록의 첫 번째 요소 값의 순위는 무엇입니까?

N = 1,000 순열을 수행하면 목록에서 첫 번째 요소의 순위가 새 값의 순위와 같거나 더 나은 608 개의 경우가 생깁니다 (새 값이 가장 좋으므로 실제로 동일 함). 1,000 개의 순열에 대해 시뮬레이션을 다시 실행하면 658 건, 663 건이됩니다.

N = 1,000,000 순열을 수행하면 목록에서 첫 번째 요소의 순위가 새 값의 순위와 같거나 더 나은 62825 건을 얻습니다 (추가 시뮬레이션은 62871 건, 62840 건). 조건이 만족되는 경우와 전체 순열 수 사이의 비율을 취하면 0.062825, 0.062871, 0.06284 ...

이 값들이 1 / 16 = 0.0625 (6.25 %)로 수렴하는 것을 볼 수 있습니다. @whuber가 지적한 것처럼 임의의 값으로 주어진 주어진 값 (16 개 중)이 그 중에서 가장 높은 순위를 가질 확률입니다.

새 값이 두 번째로 높은 값인 새 데이터 집합의 경우 (예 : 순위 2) :

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

우리는 (N = 1,000,000 순열의 경우) : 125235, 124883을 얻습니다. 다시, 무작위로 그려진 주어진 값 (16 중)이 두 번째로 가능한 가장 높은 순위를 가질 확률과 비슷합니다 : 2 / 16 = 0.125 (12.5 %).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.