귀무 가설 수락


15

이것은 통계와 다른 과학의 교차점에 대한 토론 질문입니다. 나는 종종 같은 문제에 직면한다. 내 분야의 연구원들은 p- 값이 유의 수준보다 작을 때 아무런 효과가 없다고 말하는 경향이있다. 처음에 나는 종종 이것이 가설 검정이 작동하는 방식이 아니라고 대답했다. 이 질문이 얼마나 자주 발생 하는지를 감안할 때이 문제를보다 숙련 된 통계 전문가와 논의하고 싶습니다.

“최고의 출판 그룹”Nature Communications Biology의 과학 저널에서 최근 논문 을 고려해 봅시다 (여러 예가 있지만 하나에 초점을 맞추겠습니다).

연구원들은 통계적으로 유의하지 않은 결과를 다음과 같은 방식으로 해석합니다.

따라서 만성 온건 한 칼로리 제한은 수명을 연장하고 영장류의 건강을 향상시킬 수 있지만 인지 성능에 영향을 미치지 않으면 서 뇌 회백질 무결성에 영향을 미칩니다 .

증명:

그러나 반즈 미로 과제의 수행은 대조군과 칼로리 제한 동물간에 차이가 없었다 (LME : F = 0.05, p = 0.82; 그림 2a). 유사하게, 자발적 교대 과제는 통제와 칼로리 제한 동물 사이에 어떠한 차이도 나타내지 않았다 (LME : F = 1.63, p = 0.22; 그림 2b).

저자는 또한 효과가없는 것에 대한 설명을 제안하지만 핵심 요점은 설명이 아니라 주장 자체입니다. 제공된 도표는 나에게 "눈으로"크게 다르게 보입니다 (그림 2).

또한 저자는 사전 지식을 무시합니다.

인지 능력에 대한 칼로리 제한의 해로운 영향이 래트 및 인간의 뇌 및 정서 기능에 대해보고되었습니다

거대한 표본 크기에 대한 동일한 주장을 이해할 수 있지만 (효과 없음 = 실질적으로 유의미한 영향 없음), 특히 복잡한 테스트가 사용되었으며 전력 계산을 수행하는 방법이 명확하지 않습니다.

질문 :

  1. 결론을 유효하게 만드는 세부 사항을 간과 했습니까?

  2. 과학에서 부정적인 결과 를보고 할 필요성을 고려하여 그것이 "결과가 없음"(우리가 )이 아니라 "음성 결과 (예 : 그룹간에 차이가 없음)" 임을 증명하는 방법 통계를 사용합니까? 거대한 표본 크기의 경우 null 원인 거부로부터의 작은 편차조차도 이상적인 데이터를 가지고 있으며 null이 실제로 사실임을 증명해야한다고 가정합니다.p>α

  3. 통계 학자들은 "이러한 힘을 가지면 상당한 크기의 영향을 감지 할 수 없었습니다"와 같은 수학적으로 올바른 결론을 항상 주장해야합니까? 다른 분야의 연구원들은 부정적인 결과의 공식화를 강력하게 싫어합니다.

문제에 대한 의견을 듣고 기뻐하며이 웹 사이트에서 관련 질문을 읽고 이해했습니다. 통계의 관점에서 질문 2) -3)에 대한 명확한 답변이 있지만 학제 간 대화의 경우이 질문에 어떻게 대답해야하는지 이해하고 싶습니다.

UPD : 부정적인 결과의 좋은 예는 의학적 시험의 첫 단계, 안전성이라고 생각합니다. 과학자들이 약이 안전하다고 결정할 수있을 때? 두 그룹을 비교 하고이 데이터에 대한 통계를 수행한다고 생각합니다. 이 약이 안전하다고 말하는 방법이 있습니까? 코크레인은 정확한 "부작용이 발견되지 않았습니다"를 사용하지만 의사들은이 약이 안전하다고 말합니다. 설명의 정확성과 단순성의 균형이 맞고 "건강에 아무런 영향이 없다"고 말할 수 있습니까?


2
통계적으로 중요하지 않은 결과를 "부정적"연구라고합니다. 이것은 방어적인 언어입니다. 나는 그것을 통계적으로 중요하지 않은, 예를 들어 라고 부르도록 수정했다 . 내가 틀렸다면 어떻게 말해줘. 그렇지 않으면, 연구를 설명하는 데 유용한 언어가 귀하와 귀하의 공동 작업자에게 있습니다. 아니라 수단 . 경우 이는 어떤면에서 매우 "긍정적 인"발견 일 수 있습니다. 아마도 이것은 화학 노출과 인체 건강의 관계를 조사한 최초의 대규모 역학 연구 일 것입니다. p > α p > α n = 500 , 000p>αp>αp>αn=500,000
AdamO

4
참고 사항 : 통계를 올바르게 사용하는 방법에 대한 지침으로 Nature를 사용 하지 않는 것이 좋습니다.
Cliff AB

1
@AdamO 나는 두 번의 논문이 동시에 또는 거의 동시에 출판 된 사례를 보았습니다. 한 논문에서 저자는 강력하게 부정적인 결과를 주장했으며 (주된 결론이었습니다) 두 번째로 더 강력한 연구에서 발견하고 효과를 발휘했습니다. 그러나 첫 번째 저자가 "효과 크기가 1 인 80 %의 거듭 제곱을 가짐"을 쓰면 상당한 효과를 찾을 수 없었습니다. 그는 부정적인 결과 저널에도 출판되지 않았습니다.
독일 Demidov

2
그러나 비 통계 학자들은 저에게 "어떻게 부정적인 결과를 증명합니까?" -나는 대답하는 방법을 모른다. 에 대한 어떤 가설은 종종 동등성 시험에 사용 ? 여기에는 "등가의 여백"이라는 추가 용어가 포함되며 평균 차이를 고려할 수 있습니다.
Penguin_Knight

2
Nature Publishing Group이 악용하는 것은 일반적인 실수이지만 저널 간 명성의 차이는 엄청납니다. 물론 자연 자체의 논문은 또한 거친 통계를 가질 수 있습니다.
amoeba는 Reinstate Monica

답변:


7

나는 때때로 "무 가설 수락"이라는 정신에서 비 통계적으로 유의미한 결과를 해석하는 것이 적절하다고 생각한다. 사실, 나는 통계적으로 유의미한 연구가 그러한 방식으로 해석되는 것을 보았습니다 . 이 연구는 너무 정확했으며 결과는 좁은 범위의 비 null이지만 임상 적으로 미미한 영향과 일치했습니다. 여기 초콜릿 / 레드 와인 소비와 당뇨병에 대한 "성숙한"효과 사이의 관계에 대한 연구에 대한 다소 비판적인 비판 이 있습니다. 고 / 저 섭취에 의한 인슐린 저항 분포의 확률 곡선은 히스테리 적입니다.

결과를 "H_0 확인"으로 해석 할 수 있는지 여부는 연구의 유효성, 검정력, 추정치의 불확실성 및 사전 증거와 같은 많은 요인에 따라 달라집니다. p- 값 대신 신뢰 구간 (CI)을보고하는 것이 통계학자가 만들 수있는 가장 유용한 기여 일 것입니다. 나는 연구원과 동료 통계 학자들에게 통계는 결정을 내리지 않고 사람들은 결정한다는 것을 상기시킨다. p- 값을 생략하면 실제로 결과에 대해보다 신중하게 논의 할 수 있습니다.

CI의 폭은 널 (null)을 포함하거나 포함하지 않을 수있는 효과의 범위를 기술하며, 생명을 구하는 잠재력과 같이 임상 적으로 매우 중요한 값을 포함하거나 포함하지 않을 수 있습니다. 그러나 좁은 CI는 한 가지 유형의 효과를 확인합니다. 진정한 의미에서 "유의 한"후자 유형이거나 널이거나 널에 매우 가까운 것일 수 있습니다.

아마도 "널 결과"(및 널 효과)가 무엇인지에 대한 넓은 의미가 필요할 것입니다. 연구 협력에서 실망스러워 하는 것은 조사관 이 목표로하는 효과의 범위를 사전에 결정할 수 없을 때입니다 . 중재가 혈압을 낮추는 경우 몇 mmHg입니까? 약물이 암을 치료할 수 있다면 환자는 몇 개월 동안 생존 할 수 있습니까? 연구에 열정적이며 자신의 분야와 과학에 "플러그인"된 사람은 이전 연구와 수행 한 작업에 대한 가장 놀라운 사실을 해결할 수 있습니다.

귀하의 예에서 p- 값 0.82가 null에 매우 가깝다는 것을 알 수는 없습니다. 그로부터 CI가 null 값을 중심으로한다는 것만 알 수 있습니다. 내가 모르는 것은 그것이 임상 적으로 중요한 영향을 포함하는지 여부입니다. CI가 매우 좁 으면, 그들이 제공하는 해석은 제 생각에 맞지만 데이터가이를 지원하지 않습니다. 그것은 사소한 편집일 것입니다. 반대로, 0.22의 두 번째 p- 값은 중요도 임계 값에 상대적으로 더 가깝습니다 (무엇이든). 저자는 이에 상응하여 "H_0을 거부하지 않음"유형 해석과 일치하는 "차이의 증거를 제공하지 않음"으로 해석합니다. 기사의 관련성에 관해서는 거의 말할 수 없습니다. 연구 결과에 대해보다 두드러진 토론을하는 문헌을 찾아 보시기 바랍니다. 분석하는 한


1
아 다모는 아니다 F의 널 (null)에 가장 가까운이 같음 통계 평균F의 자유의 특정 분자와 분모도에 대한 분포는? F 통계량이 0에 가까우면 옴니버스의 동등성 증거를 의미 한다고 생각합니다 . 실제로 Wellek 은 2010 동등성 및 비열 등성 에 대한 통계적 가설 검정 , 섹션 정규 분포의 동등성에 대한 7.2 테스트 , 페이지 221–225 에서이를 정확하게 동기 부여합니다 . kFk
Alexis

@Alexis F- 테스트 속성을 지적 해 주셔서 감사합니다. 자유도를 알지 못하면 테스트에 대해 지능적으로 언급하기가 어렵습니다. 아마도 값만을 가리 키도록 대답을 수정해야 할 것 입니다. 어쨌든 내 대답의 주요 요점은 두 가지 가설 과 을 같은 음모로 유지할 수 없다는 것입니다.이 중 하나는 항상 사실이므로 테스트는 의미가 없습니다. 우리는 기술적 인 방법을 사용해야하지만, 신뢰 구간으로 엄격하게 만들 수 있습니다. μ = μ 0 μ μ 0pμ=μ0μμ0
AdamO

물론이야! (그리고 명확하지 않은 경우 +1) 그러나 동등성 테스트에 정통해야합니다. 이는 임상 역학 및 생물 통계학 (현장의 명예 유산)에서 나타 났지만, 빈번한 추론의 일반적인 의미입니다. :)
Alexis

1
@GermanDemidov 나는이 문제에 대해 열심히 생각한다. 그 영향을 해석 할 수 없다면 복잡한 분석을 고려해서는 안된다고 생각한다. 그들은 어떻게 해석을해야합니다. Lemeshow의 Hosmer가 2 월에 작성한 생존 분석 5 월에는 Cox 모델 출력의 해석을 전담하는 전체 장 (4)이 있습니다. Shapiro와 같은 테스트 부족은 플롯을 사용하여 해결하는 것이 가장 좋습니다 (종종 테스트 자체를 배제 함). 리샘플링 통계는 다양한 모델링 조건에서 CI를 계산할 수있는 강력한 수단을 제공하지만 사운드 이론을 올바르게 사용해야합니다.
AdamO

3
엄격한 추론 프레임 워크에서는 "0.82가 null에 가깝습니다"와 같은 것은 없습니다. p- 값은 임의의 숫자이므로 특정 수준은 관련이 없습니다. p- 값은 절대 값에서 크거나 작을 수 없습니다. 레벨은 사전 설정된 임계 값 인 significance 와 관련해서 만 중요 합니다. 임계 값과 비교하고 비교 결과에 따라 임계 값을 거부하거나 을 거부하지 않습니다 . H 0αH0
Aksakal

12

질문의 제목에 말하는 것은 우리가 결코 테스트 때문에 귀무 가설을지지 않습니다 단지에 대한 증거를 제공 (즉, 결론은 대립 가설에 대하여 항상 어느 당신은 증거를 발견 또는 대한 증거를 찾지 못했습니다 . H 0 H A H AH0H0HAHA

그러나 다양한 종류 의 귀무 가설 이 있음을 알 수 있습니다 .

  • 형식의 단측 귀무 가설 에 대해 배웠을 것입니다 및 H 0 : θ θ 0H0:θθ0H0:θθ0

  • 당신은 아마에 대해 배운 양면 널 가설 양식의 (일명 양측 귀무 가설) , 또는 동의어 한 샘플의 경우, 그리고 또는 동의어 두개의 샘플 사례. 나는이 특정 형태의 귀무 가설이 귀하의 질문에 있다고 생각합니다. Reagle과 Vinod에 이어, 나는이 형식의 귀무 가설을 양성주의 귀무 가설이라고 하며, 표기법으로이를 명시 적으로 만듭니다 . 포지티브주의 귀무 가설 은 차이의 증거 를 제공하거나 제공하지 않거나 H 0 : θ θ 0 = 0 H 0 : θ 1H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+효과의 증거 . 포지티브주의 귀무 가설은 그룹에 대한 옴니버스 형식을 갖습니다 .모든 .kH0+:θi=θj;i,j{1,2,k};  and ij

  • 당신은 지금 막에 대해 학습 할 수있다 공동 일방적 인 널 가설 이 형태의 귀무 가설이며, 하나의 샘플의 경우, 그리고 2- 표본 사례에서 . 여기서 는 선험 에 대해 관심을 갖는 최소 관련 차이입니다 (즉, 그 차이는 더 작습니다) 이보다 중요하지 않습니다). 다시 Reagle과 Vinod에 이어이 형식의 귀무 가설을 부정적 귀무 가설이라고 하고 표기법으로이를 명시 적으로 만듭니다 . 부정주의 귀무 가설 은 동등성의 증거를 제공 합니다 ( 이내).H 0 : | θ 1θ 2 | ΔH0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ) 또는 영향이 없음을 나타내는 증거 ( 보다 큼 ). 부정 주의적 귀무 가설은 그룹에 대한 옴니버스 형식을 갖습니다 .모든 (웰크, 7 장)|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

매우 할 좋은 점은 결합 동등성에 대한 시험과의 차이에 대한 테스트를. 이를 관련성 테스트 라고 하며, [tost]태그 설명에 자세히 설명 된대로 통계적 검정력과 효과 크기를 테스트에서 도출 된 결론 내에 명시 적으로 배치합니다 . 고려하십시오 : 를 거부 하면 크기의 실제 효과가 있기 때문에 관련이 있습니까? 아니면 샘플 크기가 너무 커서 테스트에 과도한 힘이 있었기 때문입니까? 그리고 을 기각 하지 않으면 실제 효과가 없거나 표본 크기가 너무 작아서 시험에 전력이 부족하기 때문입니까? 관련성 테스트는 이러한 문제를 사전에 해결합니다. H + 0H0+H0+

동등성 검정을 수행하는 몇 가지 방법이 있습니다 (차이 검정과 결합하는지 여부).

  • 두 개의 단측 검정 (TOST)은 위에 표시된 일반적인 부정적 귀무 가설을 두 개의 특정 단측 귀무 가설로 변환합니다.
    • H 01 : θ 1θ 2ΔH01:θθ0Δ (1 샘플) 또는 (2 샘플)H01:θ1θ2Δ
    • H 01 : θ 1θ 2ΔH02:θθ0Δ (1 샘플) 또는 (2 샘플)H01:θ1θ2Δ
  • 동등성에 대한 균일하고 가장 강력한 테스트는 TOST보다 훨씬 산술적으로 정교합니다. Wellek은 이에 대한 확실한 참조입니다.
  • 신뢰 구간 접근 방식은 Schuirman이 처음으로 동기를 부여했으며 Tryon과 같은 다른 사람들에 의해 개선 된 것으로 생각합니다.


참고 문헌 Reagle, DP 및 Vinod, HD (2003). 수치 계산 된 거부 영역을 사용한 부정주의 이론에 대한 추론 . 계산 통계 및 데이터 분석 , 42 (3) : 491–512.

DA (Schuirmann, DA) (1987). 두 가지 일방적 인 테스트 절차와 평균 생체 이용률의 동등성을 평가하기위한 힘 접근법의 비교 . 약동학 및 생물 약학 저널 , 15 (6) : 657–680.

Tryon, WW 및 Lewis, C. (2008). Tryon (2001) 감소 계수를 수정하는 통계적 동등성을 설정하는 추론 적 신뢰 구간 방법 . 심리학 적 방법 , 13 (3) : 272–277.

Tryon, WW 및 Lewis, C. (2009). 추론 적 신뢰 구간을 사용하여 통계적 차이, 동등성, 불확실성 및 사소한 차이에 대한 독립 비율 평가 . 교육 행동 통계 학회지 , 34 (2) : 171–189.

Wellek, S. (2010). 동등성과 비열 등 성의 통계적 가설 테스트 . Chapman and Hall / CRC Press, 2 판.


1
저에게 투표를 한 사람은 왜 그런지에 대한 몇 가지 의견을 제시해야합니다. 자세한 답변을 제공하고 입력에 반응한다는 것이 분명해야합니다.
Alexis

9

통계 과정에서 가르치는 표준 추론 연습을 언급하고 있습니다.

  1. H0,Ha
  2. 유의 수준 설정α
  3. p- 값을 와 비교α
  4. H0HaH0

이것은 괜찮으며 실제로 사용됩니다. 제약과 같은 일부 규제 된 산업에서는이 절차가 필수적 일 수 있다고 생각하기까지했습니다.

그러나 이것이 통계와 추론이 연구와 실제에 적용되는 유일한 방법은 아닙니다. 예를 들어, "LHC에서 ATLAS 검출기로 표준 모델 Higgs boson을 검색 할 때 새로운 입자 관찰"이라는 논문을 살펴보십시오 . 이 논문은 소위 ATLAS 실험에서 iggs 스 보손의 존재에 대한 증거를 제시했다. 또한 저자 목록이 실제 내용만큼 긴 논문 중 하나였습니다. :)

  • H0HaH0
  • 이들은 "유의"라는 용어를 사용하지만 "표준"유추에서 alpha-유의 임계 값 으로 사용하지는 않습니다 . 그들은 단순히 표준 편차로 거리를 표현합니다. 예를 들어 "mH = 125 GeV에 대한 관측 된 로컬 유의성은 2.7 "입니다.σασ
  • 그들은 "원시"p- 값을 제시하고, 중요 수준 와의 "거부 / 실패 거부"비교를 통해 실행 하지 않습니다.α
  • 95 %와 같은 일반적인 신뢰 수준에서 신뢰 구간을 제시합니다.

결론은 다음과 같다 : "이 결과는 질량 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV를 갖는 새로운 입자의 발견에 대한 결정적인 증거를 제공한다." "stat"라는 단어는 체계적인 불확실성을 나타내는 통계 및 "sys"를 나타냅니다.

모든 사람이이 답의 시작 부분에서 설명한 4 단계 절차를 수행하는 것은 아닙니다. 여기서 연구원들은 통계 등급에서 가르치는 것과는 달리 임계 값을 사전 설정하지 않고 p- 값을 보여줍니다. 둘째, 그들은 최소한 공식적으로 "거부 거부 / 실패"를하지 않습니다. 그들은 추격에 나서서 "p- 값이 있으며, 이것이 우리가 126 GeV 질량을 가진 새로운 입자를 찾았다"고 말합니다.

중요 사항

iggs 스 논문의 저자는 아직 iggs 스 보손을 선언하지 않았습니다. 그들은 단지 새로운 입자가 발견되었고 질량과 같은 그 성질의 일부가 iggs 스 보손과 일치한다고 주장했다.

입자가 실제로 Higgs boson이라는 것이 밝혀지기 전에 추가 증거를 수집하는 데 몇 년이 걸렸습니다. 결과에 대한 초기 토론 이있는이 블로그 게시물 을 참조하십시오 . 물리학 자들은 제로 스핀 (zero spin)과 같은 다른 속성을 확인했습니다. 그리고 CERN은 어떤 시점에서 그 입자가 iggs 스 보손이라고 선언했다.

이것이 왜 중요한가? 과학적 발견 과정을 엄격한 통계적 추론 절차로 사 소화하는 것은 불가능하기 때문이다. 통계적 추론은 사용되는 도구 중 하나 일뿐입니다.

CERN이이 입자를 찾고 있었을 때, 먼저 입자를 찾는 데 초점을 두었습니다. 궁극적 인 목표였습니다. 물리학자는 어디를 볼지에 대한 아이디어를 가지고있었습니다. 그들이 후보를 찾으면, 그것이 후보자임을 증명하는 데 집중했습니다. 결국, p- 값과 중요성에 대한 단일 실험이 아닌 증거의 총체는 모든 사람에게 입자를 발견 했다고 확신시켰다 . 여기에 모든 사전 지식과 표준 모델을 포함 시키십시오 . 이것은 단순한 통계적 추론이 아니라 과학적 방법이 그보다 더 넓습니다.


와우, 당신의 대답은 훌륭합니다! 이것은 정말 좋은 예입니다. 최대 10 년 동안 생명 과학자들도이 보고서 스타일에 도달하기를 바랍니다!
독일 Demidov

5

전력 계산에 의존하지 않는 방법에 접근 할 수있는 방법이 있습니다 (Wellek, 2010 참조). 특히, 효과가 사전에 의미있는 크기 라는 null을 거부하는지 여부를 테스트 할 수도 있습니다 .

Daniël Lakens는이 상황에서 동등성 테스트를 옹호합니다. Lakens는 특히 평균 비교를 위해 " TOST "(두 개의 일측 테스트)를 사용하지만 동일한 아이디어를 얻는 다른 방법이 있습니다.

TOST에서는 복합 null을 테스트합니다. 단측 귀무 가설은 효과가 가장 작은 음수 차이보다 음수이고 효과가 가장 작은 양수 차이보다 음수라는 귀무 가설입니다. 둘 다 거부하면 의미있는 차이가 없다고 주장 할 수 있습니다. 이는 효과가 0과 크게 다르더라도 발생할 수 있지만 null을 보증 할 필요는 없습니다.

Lakens, D. (2017). 동등성 테스트 : t 테스트, 상관 관계 및 메타 분석을 위한 실용적인 입문서 . 사회 심리 및 성격 과학 , 8 (4), 355-362.

Wellek, S. (2010). 동등성과 비열 등 성의 통계적 가설 테스트 . Chapman and Hall / CRC Press, 2 판.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.