신뢰 구간 및 확률-이 문장의 오류는 어디에 있습니까?


12

누군가 다음과 같은 진술을하면 :

"연기 환경 흡연에 노출 된 비 흡연자는 흡연에 노출되지 않은 비 흡연자에 비해 관상 동맥 심장 질환의 위험이 1.25 (95 % 신뢰 구간, 1.17-1.32)였습니다."

전체 인구에 대한 상대적 위험은 무엇입니까? 관상 동맥 심장병과 얼마나 많은 것들이 관련되어 있습니까? 테스트 할 수있는 수많은 것들 중에서 실제로 관상 동맥 심장 질환과 관련이있는 사람은 거의 없으므로 무작위로 선택한 특정 항목이 연결 될 가능성은 거의 없습니다. 따라서 모집단의 상대 위험은 1이라고 말할 수 있습니다. 그러나 인용 간격에는 값 1이 포함되어 있지 않습니다. 따라서 실제로 두 가지 사이에 연결이있을 가능성이 거의 없거나,이 중 하나가 매개 변수를 포함하지 않는 구간의 5 % 후자가 전자보다 훨씬 가능성이 높기 때문에 우리가 가정해야합니다. 따라서 적절한 결론은 데이터 세트가 인구에 대해 거의 비정형 적이라는 것입니다.

물론, 물건의 5 % 이상이 관상 동맥 심장 질환과 관련이 있다고 가정 할 근거가 있다면 통계에 환경 연기가 그 중 하나라는 제안을 뒷받침하는 증거가있을 수 있습니다. 상식은 이것이 가능하지 않다는 것을 암시합니다.

그들의 추론에 어떤 오류가 있는가? (모든 건강 조직이 간접 흡연의 피해에 관한 중요한 문헌이 있다는 데 동의함에 따라) "시험 할 수있는 수많은 것들 중에서 실제로는 거의 관상 동맥 심장병과 관련이 없다"는 전제 때문입니까? 이 문장은 무작위로 선택된 요소 (즉, 관상 동맥 질환의 위험이있는 사람의 개 수)에 대해 사실 일 수 있지만, '임의의 임의 인자'보다 간접 흡연 및 관상 동맥 심장 질환에 대한 선험적 확률이 훨씬 높습니다. .

이것이 올바른 추리입니까? 아니면 다른 것이 있습니까?


인용 된 텍스트는 인용 부호처럼 보입니다. 그것이 어디에서 온 것인가? :)
MånsT

그렇습니다. wikipedia의 인용문입니다. 누군가가 "신뢰 간격"기사에 이것을 추가했습니다. 나는 그것이 정확하지 않기 때문에 그것을 제거하려고 노력하고 있지만, 그 남자는 거부하기 때문에 "이것은 분명히 잘못되었습니다"대신 수학적으로 건전한 이유가 필요합니다. 정확히 어떤 오류가 발생하고 있는지. 이것이 맞다면 많은 연구들이 비슷한 이유로 반박 할 수 있기 때문에
BYS2

3
조금 끌면 넘어 가서 도와 드리겠습니다. 그의 주장은 명백히 잘못되어 있으며, 의제를 가지고 있음을 강력하게 지적합니다.
Erik

3
많은 통계를 사용하지만 통계학자가 아닌 물리학 자로서 나는 그 단락이 실제로 도움이되지 않는다는 것을 알게되었다. 나는 95 %의 cl이 귀무 가설이 참이라면 20 번의 1 회 실험을 반복하면 95 % 수준에서 유의미한 결과를 얻을 것이라는 것을 항상 잘못 생각했다. 99.9 이상을 사용하지 말고 다른 토론입니다). 그 게시물은 상관 관계 요인에 대해 더 중요한 것으로 보이며 비전문가 (또는 다른 사람)에게는 전혀 도움이되지 않습니다.
Bowler

@ 에릭. 사용자는 양말 인형극에 대한 꽤 독창적 인 역사를 가지고 있으며 (몇 가지 계정이 있고 IP 편집을 사용함) 전에 자신의 거래가 무엇인지 확실하지 않은 채 차단되었습니다. 그러나 말썽 꾸러기처럼 보인다
BYS2

답변:


10

여기에는 많은 문제가 있습니다. @ Néstor가 설명했듯이 (링크 없음) 및 H 1 (링크) 에 대한 사전 확률을 암시 적으로 가정합니다 .H0H1

그는에 (매우 가까운 1) 매우 높은 무게 배치 과에 아주 작은 무게 H 1 . 연기와 심장병 (활동적인 흡연자를 고려) 사이에 기계적인 연관성이 있기 때문에 이것이 가장 의심스러운 일입니다. 문제는 실제로 노출이 충분한 지 여부입니다. 이것은 이전의 연구를 고려조차하지 않습니다. 예를 들어 빨간 양말을 신는 것처럼 테스트되는 것은 "많은 것들"중 하나가 아닙니다. 이것은 그가 이미 매우 편견이 있고 실제로 정당화하기 어려운 것으로 시작한다는 것을 의미합니다.H0H1

그런 다음 실제 값을 포함하지 않는 95 % 신뢰 구간을 얻을 확률이 5 % 일 것이라고 진술하여 이전을 업데이트합니다. 이것은 사실이지만 귀무 가설을 가정하여 특정 구간을 얻을 가능성없습니다 . 그는 분명하게 문제가되는 [100, 200]의 신뢰 구간과 정확히 동일한 [1.17, 1.32]의 신뢰 구간을 처리했을 것입니다.

이는 베이지안 접근 방식에서 실제로 중요합니다. 1이 0이라는 가정하에 1을 포함하는 구간을 얻지 못할 확률은 5 %이지만 특정 구간을 얻는 확률 밀도는 다릅니다 (더 작습니다).

세 번째 실수는 그가 이전 결과를 명시하지 않았으며 그 결과를 얻기 위해 H 1 과 비교 될 가능성을 명시하지 않았다는 것입니다. 그것은 단지 "마지막으로 작다".H0H1

네 번째 실수는 적절한 조치가 데이터를 기각하는 것이라고 말합니다. 그의 결과는 심지어 데이터에 의존하지 않으며, 그의 주장은 모든 데이터에 대해 동일한 조치가 수행되었음을 암시합니다. 흥미로운 링크를 찾았지만 이것이 우연 일 가능성이있는 것으로 의심되는 경우 과학적으로해야 할 일은 결과를 복제하는 것입니다.


Nestor의 답변을 확장 해 주셔서 감사합니다! 그러나 간단한 질문은 "... 이것은 귀무 가설을 가정하여 특정 구간을 얻을 가능성이 없다는 것입니다."라고 말했습니다. 귀무 가설을 가정하여 특정 구간을 얻을 가능성을 찾으려면 베이지안 추론과 신뢰할 수있는 구간을 사용해야합니까? 빈번한 신뢰 구간은 "간격에 실제 값이 포함될 확률"만 알려줍니다. 다시 한번 감사드립니다
BYS2

잦은 신뢰 구간 95 %는 구간이 구성된 횟수의 95 % 이상이 실제 값을 포함하도록 구성됩니다. 여태까지는 그런대로 잘됐다. 귀무 가설이 참이면 특정 신뢰 구간을 얻는 확률 (또는 밀도 값)을 계산할 수도 있습니다. 정확한 위치는 귀무 가설을 포함했는지 여부보다 더 많은 "정보"를 포함합니다. null을 참일 확률과 관련하여 베이지안 추론을 사용할 때 해당 정보를 버리는 것은 좋지 않습니다.
Erik

장난감의 예는 다음과 같습니다. 베이지안 추론, 분포의 형태에 대해 추론하려고합니다. 우선 두 가지 가능성을 허용합니다. H1 : 분포가 표준 정규입니다. H2 : 분포 정규, 평균 = sd = 1. 분포 값의 샘플을 사용하면 이전 값을 업데이트 할 수 있습니다. 값의 부호 만 제공되면 이전 값도 업데이트 할 수 있지만 관련 정보를 버렸기 때문에 업데이트가 덜 유익합니다.
Erik

7

이것은 가설 검정과 관련된 매우 흥미로운 철학적 문제입니다 (따라서 여기에서 설명하는 것처럼 빈번한 설정에서도 신뢰 구간 ).

물론, 수동 흡연은 관상 동맥 심장 질환을 유발하고, 음주는 chd를 유발하고, 개를 소유하면 chd를 유발하고, 염소 자리가 chd를 유발한다는 많은 가설이 있습니다 ...

이러한 가설 중 하나를 임의로 선택하면 사실이되는 가설을 선택할 확률은 거의 제로입니다. 이것은 인용 된 텍스트의 주장 인 것처럼 보입니다. 우리가 진정한 가설을 테스트했을 가능성은 거의 없습니다.

그러나 가설은 무작위로 선택되지 않았습니다. 그것은 관상 동맥 심장 질환에 대한 이전의 역학 및 의학 지식에 의해 동기 부여되었습니다. 흡연이 관상 동맥 심장 질환을 유발할 수있는 방법을 설명하는 이론적 메커니즘이 있으므로 수동 흡연에도 효과가 있다고 생각하는 것은 그리 멀지 않습니다.

인용문의 비판은 가설을 위해 데이터 세트를 채굴하는 탐색 적 연구에 유효 할 수 있습니다. 이것이 사실과 같은 "발견"을 받아들이지 않는 이유입니다. 대신 새로운 연구에서 결과를 재현 할 수 있어야합니다. 어느 쪽이든 인용문에 인용 된 논문은 메타 연구이므로이 문제의 영향을받지 않습니다.

우리는 예측 된 결과를 관측 된 결과와 비교함으로써 이론에 의해 유발 된 가설테스트 한다는 지난 세기 동안 경험적으로 보았다 . 우리가이 절차를 믿는다는 사실은 의학, 공학 및 과학 분야에서 많은 발전을 이룩한 이유입니다. 이것이 내 컴퓨터에 이것을 쓸 수 있고 당신이 그것을 읽을 수있는 이유입니다. 이 절차가 잘못되었다고 주장하는 것은 과학적 방법이 근본적으로 결함이 있다고 주장하는 것입니다. 우리 는 그렇지 않다는 증거많이 있습니다.

이런 종류의 증거를 기꺼이 받아들이지 않는 사람이 실제로 받아 들일만한 것이 있는지 의심합니다.


나는 마지막까지 당신의 단락을 정말로 얻지 못했습니다. "유의성 검정"(예 : 데이터 확률을 적어도 더 극단적으로 계산) 또는 실제로 "가설 검정"(베이지 설정)을 참조하고 있습니까? 올바른 질문을하면 그들 중 어느 것도 효과가 없다고 누가 말했습니까?
Néstor

@ Néstor : 아마 다르게 작성했을 것입니다. 나는 통계적 가설 테스트 에 대해 실제로 진술하는 것이 아니라 모델 예측을 실제 데이터와 비교하는 것 (즉, 가설이 올바른 경우 "테스트")이 매우 효율적인 방법으로 보인다는 사실을 관찰했다. 과학. CI에 대한이 비판의 핵심은이 방법을 받아들이 려하지 않는 것입니다. 인용문에 제시된 논증은 모든 통계적 방법에 적용됩니다. 모든 귀무 가설에 대한 사전 확률이 0이므로 우리는 결코 믿지 않을 것입니다.
MånsT

6

저자가 관상 동맥 심장 질환의 상대 위험 가능성이 1 일 것이라는 확신을 얻지 못하는 이유는 확실치 않습니다. 이것은 명백한 잘못입니다. 나에게, 그는 빈번한 설정을 사용하고있는 것처럼 보이지만 그는 베이지 색으로 추론하고 있습니다 (매우 일반적입니다).

H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0

H0은 아닐까요 : 수동 흡연과 CHD 사이에는 연관성이 없습니까? 귀무 가설은 일반적으로 효과가 없다는 가설입니다. 그 외에도이 답변에 감사드립니다!
BYS2

그래 니가 맞아! 나는 당신이 지적하기 전까지는 그것을 알지 못했습니다 :-). 답변을 편집하겠습니다.
Néstor

3

이 베이지안 추론 라인에는 무언가가 있지만 (Erik에 의해 매우 철저하게 파괴되었습니다!) 실제로이 생각 라인은 많은 의학적 발견이 재생산 될 수없는 이유를 설명 할 것입니다.

저자는 증거를 제공하지 않고 두 가지를 전제로한다 : 연기에 대한 노출은 무작위로 선택되었고, 세계의 거의 아무것도 심장병을 유발하지 않는다. 이러한 느슨한 추론 표준에 따라 저자는 심장병을 유발하는 어떤 결론도 거부 할 수 있습니다. 당신이해야 할 모든 주장 :

  1. 가설은 무작위로 선택되었고
  2. 그 심장병은 원인이 거의 없습니다.

이 두 가지 주장은 논쟁의 여지가 있습니다 (그리고 내 일반적인 지식에 따르면 거짓 일 가능성이 큽니다). 그러나 이러한 가정을 바탕으로 간접 흡연에 노출 된 사람들의 100 %가 1 년 안에 심장 마비로 사망 한 것을 관찰하더라도, 그 연결은 단지 숨겨진, 단수의 "진정한"원인과 우연의 상관 관계라고 주장 할 수 있습니다 .


당신의 생각에 감사합니다! 그렇습니다. 저자는 가설이 '무작위로 선택되었다'고 확실히 가정했습니다.
BYS2

-1

인용에서 단락에 분명히 잘못된 것이 보이지 않지만 데이터를 보지 못했고 숫자인지 확인할 수 없습니다. 그러나 그 뒤에 나오는 두 단락은 매우 불분명합니다.

"전염병으로 비만인 비 흡연자는 전체적으로 정상 체중을 가진 비 흡연자와 비교했을 때 관상 동맥 심장 질환의 상대적 위험이 1.25 (95 % 신뢰 구간, 1.17에서 1.32)였다"고 그는 말했다. 누구든지 그를 의심 할만한 이유가 있습니까?


인용문의 첫 번째 단락은 역학 연구의 결론을 인용 한 저자 일 뿐이므로 아무 문제가 없습니다. 다음 몇 단락은 그가 모호한 진술을하는 곳에서 연구를 불신하려는 것입니다.
BYS2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.