왜 이러한 진술이 평균에 대해 95 % CI에서 논리적으로 따르지 않습니까?


26

나는 Waekmakers의 웹 사이트 에서 다운로드 한 "신뢰 구간의 강력한 오해"에 관한 Hoekstra et al의 2014 년 논문을 읽었습니다 .

두 번째 페이지에 다음 이미지가 나타납니다.

놀리다

저자에 따르면 False는 이러한 모든 진술에 대한 정답입니다. 나는 왜 그 진술이 거짓인지 잘 모르겠으며, 나머지 논문에서 말할 수있는 한 이것을 설명하지는 않습니다.

1-2와 4는 실제 평균이 알 수없는 명확한 값을 가질 때 실제 평균의 가능한 값에 대해 무언가를 주장하기 때문에 정확하지 않다고 생각합니다. 이것이 설득력있는 차이점입니까?

3과 관련하여, 나는 그 이유가 확실하지 않지만 귀무 가설이 틀릴 가능성에 대한 주장을하려는 것이 아님을 이해합니다.

마찬가지로 6은 실제 평균이 실험에서 실험으로 바뀌고 있음을 의미하기 때문에 사실이 될 수 없습니다.

내가 전혀 이해하지 못하는 것은 5입니다. 왜 잘못된 것입니까? 시간의 95 %가 실제 평균을 포함하는 CI를 생성하는 프로세스가있는 경우, 모집단 값이 0.1과 0.4 사이에 있다고 95 % 신뢰한다고 말할 수없는 이유는 무엇입니까? 방금 채취 한 샘플에 대한 특별한 정보가있을 수 있기 때문에 실제 평균을 포함하지 않는 5 % 중 하나 일 가능성이 높습니다. 예를 들어, 신뢰 구간에 0.13이 포함되며 어떤 이유로 0.13은 특정 연구 맥락에서 그럴듯한 가치로 간주되지 않습니다. 예를 들어 해당 값이 이전 이론과 충돌하기 때문입니다.

어쨌든 자신감은 무엇을 의미합니까?


답변:


11

질문 (5)의 의미는 "자신감"에 대한 공개되지 않은 해석에 달려 있습니다. 나는이 논문을주의 깊게 조사하여 "자신감"을 정의하려는 시도 나이 맥락에서 의미하는 바를 찾지 못했다. 질문에 대한 답 (5)에 대한 논문의 설명은 다음과 같습니다.

"... [CI]는 CI의 경계를 언급하는 반면 CI는 특정 간격이 아닌 절차 만 평가하는 데 사용될 수 있습니다."

이것은 의심스럽고 오해의 소지가 있습니다. 첫째, 절차의 결과를 평가할 수 없다면 처음에 절차가 어떻습니까? 둘째, 문제의 진술은 절차가 아니라 독자의 결과에 대한 "신뢰" 에 관한 것입니다.

저자들은 스스로를 방어합니다 :

"진행하기 전에 CI의 올바른 정의를 기억하는 것이 중요합니다. CI는 매개 변수 추정치 주변에 구성된 숫자 간격입니다. 그러나 이러한 간격은 매개 변수의 특성을 직접 나타내는 것이 아니라 대신 매개 변수를 나타냅니다. "빈번주의 기술에 전형적인 절차의 속성"

그들의 편견은 "자주주의 기술"(아마도 암시 적 비웃음으로 작성 됨)이라는 마지막 구절에서 나온다. 이 특성은 정확하지만 매우 불완전합니다. 신뢰 구간은 또한 실험 방법 (시료의 채취 및 측정 방법)의 특성이며, 더욱 중요한 것은 자연 그 자체라는 사실을 알 수 없다. 그것이 누군가가 그 가치에 관심을 갖는 유일한 이유입니다.

나는 최근 생물학에서 Edward Batschelet의 순환 통계 를 읽는 것을 즐겼습니다 (Academic Press, 1981). Batschelet은 작업 과학자를 대상으로 한 스타일로 명확하고 요점을 씁니다. 신뢰 구간에 대해 다음과 같이 말합니다.

" 우연한 변동으로 인한 편차의 표시가없는 모수의 추정치는 과학적 가치가 거의 없습니다. ...

"추정되는 매개 변수가 고정 된 수인 반면, 신뢰 한계는 표본에 의해 결정됩니다. 이들은 통계치이므로 확률 변동에 따라 달라집니다. 같은 모집단에서 추출 된 다른 표본은 다른 신뢰 구간을 초래합니다."

[강조는 84-85 페이지의 원본에 있습니다.]

강조의 차이점에 주목하십시오. 문제의 논문은 절차 에 중점을 둔 반면 , Batschelet은 샘플 과 특히 매개 변수에 대해 무엇을 밝힐 수 있는지, 그리고 "기회 변동"에 의해 영향을받을 수있는 정보의 양에 초점을 맞 춥니 다 . 나는이 설득력 있고 실용적이고 과학적인 접근법이 훨씬 더 건설적이고, 밝고, 그리고 궁극적으로 유용하다는 것을 안다.

따라서이 논문에서 제공하는 것보다 신뢰 구간을보다 구체적으로 설명하려면 다음과 같이 진행해야합니다.

CI는 모수 추정치 주위에 구성된 숫자 간격입니다. CI 구성의 기본 가정에 동의하는 사람은 해당 매개 변수가 해당 간격 내에 있다고 확신 할 수 있습니다. 이것이 "자신감"의 의미입니다. 이 실험의 의미는 실험의 많은 복제 (실제로 발생하든 그렇지 않든)에서 CI가 변할지라도 대부분의 경우 매개 변수를 포함 할 것으로 예상되기 때문에 기존의 비 기술적 신뢰의 의미와 대체로 일치합니다.

이 더 충만하고 더 전통적이고 건설적인 "자신감"에 대한 질문 (5)에 대한 답은 사실입니다.


2
Batschelet의 접근 방식은 비어있을 수있는 CI와 같이 사려 깊은 독자가 일시 중지하는 특정 종류의 신뢰 구간을 배제하는 것으로 나타납니다. 그러한 CI는 "기회 변동에 의한 편차의 표시"라는 개념을 거의 포착하지 못할 것이다. 이것은 아마도 신뢰 구간의 표준 정의가 의도 한 것을 달성하지 못한다는 것을 암시합니다. 그럼에도 불구하고, 질문 (5)에서 "자신감"이 무엇을 의미하는지에 대한 명확한 표시가 없다면, 저자는 그 질문에 대한 답을 바탕으로 저자가 도출 한 결론을 할인해야합니다.
whuber

귀하의 세련된 신뢰 구간 정의에 따라 5가 정확하다는 것에 동의하지 않습니다. CI는 충분한 통계를 기반으로해야합니다. 그렇지 않으면 보유한 샘플에서 인식 할 수있는 "나쁜"하위 클래스와 "좋은"하위 클래스가있는 CI를 만들어 해당 클래스의 적용 범위가 너무 낮거나 너무 높아야합니다. 가장 기본적인 예는 의 크기가 2 인 iid 샘플입니다 . 표본 평균은 충분하지 않으므로 CI 범위는 특정 표본에 따라 다릅니다. yicauchy(μ,1)μ
probabilityislogic

... 계속 ... 장기 평균 적용 범위를 달성하더라도 특정 종류의 샘플의 적용 범위는 적용되지 않습니다.
probabilityislogic

10

질문 1-2, 4 : 빈번한 분석에서 실제 평균은 랜덤 변수가 아니므로 확률은 정의되지 않지만 베이지안 분석에서는 확률이 이전에 따라 달라집니다.

질문 3 : 예를 들어, 우리가 확실히 알고있는 경우를 생각해보십시오. 이러한 결과를 얻을 수는 있지만, 귀무 가설이 '불확실하다'고 말하는 것은 무리가 있습니다. 귀무 가설이 참이면 발생할 가능성이없는 데이터를 얻었지만 귀무 가설이 참이 아닐 수도 있음을 의미하지는 않습니다.

질문 5 : 이것은 "우리는 p % 자신감을 가질 수 있습니다"라는 정의에 따라 약간 의문의 여지가 있습니다. p % 신뢰 구간에서 유추 된 것을 의미하도록 명령문을 정의하면 해당 명령문은 정의상 올바른 것입니다. 전형적인 프로 바이에른의 주장은 사람들이 이러한 진술을 "확률은 p %"를 의미하는 것으로 직관적으로 해석하는 경향이 있으며, 이는 거짓 일 것입니다 (1-2,4에 대한 답변 비교).

질문 6 : 당신의 설명은 "실제 평균이 실험에서 실험으로 바뀌고 있음을 암시합니다"는 정확히 맞습니다.

이 기사는 최근 Andrew Gelman의 블로그 ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ) 에서 논의되었습니다 . 예를 들어, 질문 5의 진술 해석과 관련된 문제는 의견에서 논의됩니다.


1
따라서 "진정한 평균"의 모든 인스턴스를 "진정한 평균에 대한 최상의 추정치"로 바꾸고 진술이 정확 해졌습니까?
Superbest

@Superbest 아니요. "이 데이터에 대한 최상의 추정치"를 고려하면 알려진 상수입니다 (최상의 정의가 잘되어있는 경우). "미래 표본의 최적 추정치"를 고려하면 실제 평균을 모르기 때문에 그 차이가 어떻게되는지 알 수 없습니다.
Juho Kokkala

이것은 위의 의견에 대한 반박은 아니지만 실제로 "최고의 추정치"는 분포가 아니라 실제 수치를 의미한다는 점을 지적해야합니다. CI를 사용하면 "이 데이터가 제공되는 실제 평균의 분포"에 대해 이야기 할 수 있습니다.
Superbest

1
@Super 이것은 논문에서 언급 된 CI의 오해입니다. 특히, 참 평균은 숫자입니다 . 분포가 없습니다. 자세한 내용은 사이트 검색에서 처음 두 번의 조회를 참조하여 신뢰 구간 을 확인하십시오.
whuber

1
@ 슈퍼, "신뢰할 수있는 간격"이 가까워 질 것입니다.
whuber

8

"95 % 확신"의 의미에 대한 공식적인 정의가 없다면 # 5 true 또는 false 라벨링에 대한 타당한 이유는 무엇입니까? 평신도는 그 평균값이 그 구간에있을 확률의 95 % 확률과 동의어로 잘못 해석 할 것입니다. 그러나 어떤 사람들은 그 구간에 시간의 실제 평균 95 %를 포함하는 구간 생성 방법을 사용한다는 의미에서 사용합니다. 알려지지 않은 모수의 확률 분포에 대해 이야기하지 않기 위해; 자연스럽게 용어가 충분히 확장 된 것 같습니다.

앞의 진술 (# 4)의 유사한 구조는 응답자들이 이전에 아이디어를 접하지 않았어도 "우리는 95 % 확신 할 수있다"와 "95 %의 가능성이있다"를 구별하려고 시도했을지도 모른다. 나는이 속임수가 5 위로 합의 된 비율이 가장 높을 것으로 예상했다. 논문을 보았을 때, 나는 틀렸다는 것을 알았지 만 적어도 80 %는 네덜란드어 버전에서 설문지를 읽었을 것이다. 영어 번역의 적절성.


4

BS Everitt의 사전 통계 에서 신뢰 구간의 정의는 다음과 같습니다 .

"샘플 관측치로부터 계산 된 특정 확률로 실제 모수 값을 포함 할 것으로 생각되는 값의 범위. 예를 들어 95 % CI는 추정 과정이 반복해서 반복되고 95 %라는 것을 암시합니다. 계산 된 구간 중 "정확한 구간"은 실제 매개 변수 값을 포함 할 것으로 예상됩니다. 명시된 확률 수준은 구간 자체의 속성이 아니라 임의의 변수로 간주되지 않는 구간 자체의 속성을 나타냅니다. "

가장 일반적인 오해는 신뢰 구간 의 의미 와 신뢰할 수있는 구간 의 의미 인 "베이지안 신뢰 구간" 을 혼동 하여 질문의 내용과 유사한 진술을하는 것입니다.

나는 신뢰 구간이 정보가없는 이전에 유래 한 신뢰할 수있는 구간과 종종 비슷하다고 들었습니다.


Jaynes 1976 논문 신뢰 구간과 베이지안 구간. 그것은 적어도 하나의 믿을만한 신맛입니다. Berger와 Bernardo의 참고 문헌도 있습니다. 진심으로, 당신은 이것에 대해 들어 본 적이 있습니까?
probabilityislogic

2

질문 5의 허위에 대한 직관에 관해, 나는 여기서 부터이 주제에 관한 다음의 논의를 얻 습니다.

계산 한 신뢰 구간에 실제 모집단 평균이 포함될 확률은 95 %입니다. 모집단 평균이 구간 내에있을 확률이 95 %라고 말하는 것은 올바르지 않습니다.

차이점이 뭐야? 모집단 평균에는 하나의 값이 있습니다. 당신은 그것이 무엇인지 모르지만 (시뮬레이션을하지 않는 한) 하나의 가치가 있습니다. 실험을 반복해도 그 값은 변하지 않으며 그 값이 무엇인지 여전히 알 수 없습니다. 따라서 모집단 평균이 특정 범위 내에있을 확률에 대해 묻는 것은 엄격하지 않습니다. 반대로 계산하는 신뢰 구간은 수집 한 데이터에 따라 다릅니다. 실험을 반복하면 신뢰 구간이 거의 다를 수 있습니다. 따라서 구간에 모집단 평균이 포함될 확률에 대해 묻는 것이 좋습니다.

이제 5에 대한 구체적인 질문이 있습니다. 왜 잘못 되었습니까?

  1. 방금 채취 한 샘플에 대한 특별한 정보가있을 수 있기 때문에 실제 평균을 포함하지 않는 5 % 중 하나 일 가능성이 높습니다. 오히려, 나는 평균이 랜덤 변수가 아니기 때문에 신뢰 구간이 데이터의 함수이기 때문이라고 생각합니다.
  2. 어쨌든 자신감은 무엇을 의미합니까? 신뢰 구간을 사용하면 (자신의 가정을 신뢰하는 경우) 구간이 실제 모수를 포함한다고 주장 할 수 있습니다. 해석은 샘플링 절차의 불확실성을 반영합니다. % 의 신뢰 구간은 장기적으로 실현 된 신뢰 구간의 %가 실제 모수를 포함 한다고 확신 할 수 있습니다 .100 ( 1 - α )100(1α)100(1α)

(이 질문에 대한 다른 답변에서 언급 한) 부수적으로, 베이지안 통계의 개념 인 신뢰할 수있는 구간 은 실제로 얻은 데이터가 주어지면 모수의 실제 값이 신뢰 구간에있을 확률이 있다고 예측합니다. 아마도 Gelman의 블로그에서 더 많은 배경을 얻을 수 있습니다.


5
"간격에 실제 값이 포함되어 있습니다"및 "실제 값이 해당 간격 내에 있음"은 정확히 같은 것을 의미합니다. 전자의 관점에서 생각하는 것이 더 도움이되지만, 하나는 정확하고 다른 하나는 부정확하다고 말하는 것은 의미가 없습니다.
David Richerby
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.