이제 다음의 귀무 가설을 기각 했습니까?


23

나는 몇 번이고 귀무 가설 기각 하거나 기각 하지 못했습니다 . 거부에 실패한 경우 거부에 대한 증거가 충분하지 않으며 "이동"합니다 (예 : 더 많은 데이터 수집, 실험 종료 등).

그러나 귀무 가설을 "거부"할 때 대립 가설에 대한 몇 가지 증거를 제공 하면 대립 가설이 실제로 적용된다는 것을 실제로 "증명"할 수 없습니다.

따라서 귀무 가설을 기각하면 일반적인 다음 단계는 무엇입니까? 더 많은 결과를보다 결정적으로 만들기 위해 "문제를 더 분석"하기 위해 어떤 도구 / 기술을 채택합니까? 통계 분석가로서 추가 분석이 필요한 논리적 "다음 단계"는 무엇입니까?

예를 들면 다음과 같습니다.

H0:μ1=μ0

H1:μ1>μ0 (예상 방향을 알고 있음)

일단 어느 정도의 의미에서 귀무 가설을 기각하면 대안이 참이라는 "일부 증거"가 있지만 그 결론을 이끌어 낼 수는 없습니다. 결론을 결정적으로 내리고 싶다면 (더블 단어 놀이를 용서하십시오) 어떻게해야합니까?

나는 학부 시절 에이 질문을 깊이 생각해 본 적이 없지만 지금은 공정한 가설 테스트를 수행하고 있으므로 앞으로 나아갈 것이 무엇인지 궁금해 할 수는 없습니다. :)



3
일반적으로, 의사 결정 후 조치도 테스트하기 전에 선택해야합니다 (두 가지 종류의 오류 비용을 어떻게 측정 할 수 있고 합리적인 ?를 선택할 수 있습니까?). 최소한 예상 효과 크기를 고려할 것입니다. 널 (null)은 선택할 수 없습니다 ( 선택한 기준에 따라 충분하지 않은 경우 무엇입니까?). 대신 어떤 값이 그럴듯합니까? 예를 들어 표시된 테스트 에서 데이터를 감안할 때 값은 어느 정도 합리적입니까? αμ1μ0
Glen_b-복지국 모니카

답변:


10

일반적으로 더 많은 데이터로 테스트 할 모수에 대한 추정치를 계속 향상시킬 수 있습니다. 테스트에서 반중간 정도의 중요도가 달성되면 데이터 수집을 중지하는 것은 나쁜 추론을 만드는 좋은 방법입니다. Neyman-Pearson 프레임 워크가 의도하지 않은 많은 결과 중 하나 인 분석가가 작업이 완료되었다는 표시로 인해 중요한 결과를 오해 할 수 있음에 따라 사람들은 p 값을 예약하지 않고 널을 거부하거나 거부하지 않는 원인으로 해석 합니다. 임계 임계 값 중 어느 쪽이 떨어지는 지

잦은 패러다임에 대한 베이지안 대안을 고려하지 않으면 서 (다른 사람이 바라는 바), 신뢰 구간은 기본 귀무 가설을 기각 할 수있는 시점을 넘어 훨씬 더 유익한 정보를 계속 제공합니다. 더 많은 데이터를 수집하면 기본 유의성 검정이 훨씬 더 큰 유의성을 달성한다고 가정하고 (이의 유의성에 대한 초기 발견이 거짓 긍정임을 밝히지 않음), 어느 쪽이든 null을 거부하기 때문에 이것이 쓸모없는 것으로 보일 수 있습니다. 그러나이 시나리오에서는 해당 모수에 대한 신뢰 구간이 계속 줄어들어 관심있는 모집단을 정확하게 설명 할 수있는 신뢰도를 향상시킵니다.


다음 은 시뮬레이션 변수에 대해 μ = 0 이라는 귀무 가설을 테스트하는 의 매우 간단한 예입니다 .μ=0

One Sample t-test

data:  rnorm(99) 
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 -0.377762241 -0.006780574 
sample estimates:
 mean of x 
-0.1922714

여기서 방금을 사용 t.test(rnorm(99))했고 오 탐지가 발생했습니다 (허용 가능한 오 탐지율을 선택 하여 기본적으로 로 가정 한 경우). 신뢰 구간을 무시하면 표본이 모집단에서 추출되어 평균이 0과 크게 다른 것으로 주장 할 수 있습니다. 기술적으로 신뢰 구간은 이것에 대해 논쟁의 여지가 없지만 평균이 0에 매우 가깝 거나이 샘플을 기반으로 생각하는 것보다 훨씬 더 클 수 있음을 시사합니다. 물론 모집단 의 평균이 0으로 설정되어 있지만 실제 데이터로는 거의 알지 못하기 때문에 null이 실제로 문자 그대로 사실이라는 것을 알고 있습니다.α=.05rnorm

이것을 다시 실행하면 set.seed(8);t.test(rnorm(99,1))샘플 평균 .91, p = 5.3E-13 및 대한 95 % 신뢰 구간이 생성됩니다 . 이번에는 특히 시뮬레이션 데이터의 평균을 1로 설정하여 null을 구성했기 때문에 null이 false임을 확신 할 수 있습니다.μ=[.69,1.12]

여전히 0과 얼마나 다른지 아는 것이 중요하다고 말하십시오. 아마 0.8의 평균은 문제의 차이를 나타 내기 위해 0에 너무 가까울 것입니다. 나는 가능성을 배제하기에 충분한 데이터가없는 볼 수 나의 신뢰 구간에서 모두와의 t 와 -test 제공, P = 0.33입니다. 내 샘플 평균은이 0.8 임계 값에 따라 0과 의미가 다르게 보일 정도로 충분히 높습니다. 더 많은 데이터를 수집하면 차이가 최소한 0보다 크지 않다는 것에 대한 확신을 높이는 데 도움이 될 수 있습니다.μ=.8mu=.8

시뮬레이션으로 "데이터를 수집"하고 있기 때문에 약간 비현실적 일 수 있으며 샘플 크기를 몇 배나 늘릴 수 있습니다. Running 은이 시나리오에서 μ = 0set.seed(8);t.test(rnorm(999,1),mu=.8) 의 귀무 가설을 기각 한 후 더 많은 데이터가 계속 유용하다는 것을 알았습니다. 이제 더 큰 표본 으로 μ = .8 의 귀무를 기각 할 수 있기 때문 입니다. μ = [ .90 , 1.02 ] 의 신뢰 구간은 처음에 그렇게하기로 결정했다면 μ = .89 까지 귀무 가설을 기각 할 수 있음을 시사 합니다.μ=0μ=.8μ=[.90,1.02]μ=.89

H0:μ=.9set.seed(9);t.test(rnorm(999,1),mu=.9)

점점 더 엄격한 귀무 가설을 테스트하거나 더 나은 방법은 단순히 신뢰 구간을 줄이는 데 초점을 두는 것입니다. 물론 귀무 가설을 기각하는 대부분의 연구는 대립 가설을 바탕으로하는 다른 연구의 토대가됩니다. 예를 들어, 상관 관계가 0보다 크다는 대체 가설을 테스트하는 경우 다음 후속 연구에서 중재자 또는 중재자를 테스트 할 수 있습니다. 그리고 내가있는 동안 확실히 확인하고 싶습니다. 원래 결과를 복제 할 수 있습니다.


고려해야 할 또 다른 접근법은 테스트입니다. 매개 변수가 단일 값과 다르지 않고 특정 범위의 가능한 값 범위 내에 있다고 결론을 내려면 기존의 대체 가설에 따라 매개 변수가 놓일 값 범위를 지정하고 테스트 할 수 있습니다 모수가 해당 범위 밖에있을 가능성을 함께 나타내는 다른 귀무 가설 세트에 대해 이 마지막 가능성은 당신이 썼을 때 생각했던 것과 가장 비슷할 것입니다 :

우리는 대안이 사실이라는 "몇 가지 증거"를 가지고 있지만 그 결론을 이끌어 낼 수는 없습니다. 결론을 결정적으로 내리고 싶다면 ...

set.seed(8)rnorm(99)rnorm(99,1)-1μ=.8.2μ.2

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tostμ=[.27,.09]rnorm(999)μ=[.09,.01]

나는 여전히 신뢰 구간이 동등성 검정 결과보다 더 흥미 롭다고 생각합니다. 그것은 데이터가 모집단 평균이 대립 가설보다 더 구체적이라고 제안하는 것을 나타내며, 대립 가설에서 지정한 것보다 훨씬 작은 간격 내에 있다고 확신 할 수 있습니다. 설명하기 위해 한 번 더 시뮬레이션 내 비현실적인 힘을 남용거야, 그리고 "복제"사용 set.seed(7);tost(rnorm(999),epsilon=.09345092): 과연, P = 0.002.


깨달음! 동등성 테스트에 대해 이야기하는 마지막 부분의 빠르고 더러운 예를 보여 주시겠습니까? 그것이 어떻게 적용되는지 높은 수준에서 보는 것이 정말 도움이 될 것입니다.
PhD

@PhD : 완료 그래도 "높은 수준"보다 "빠르고 더러워"라고 생각합니다. 나는 동등성 테스트를 처음 접했고 앞으로 살펴 보 겠지만 정확하게 팔리지는 않았다.
Nick Stauner

10

먼저 @Nick Stauner는 선택적 중지 와 관련하여 매우 중요한 인수를 합니다 . 샘플이 들어올 때 데이터를 반복적으로 테스트하는 경우 테스트가 중요하면 중지하면 중요한 결과를 얻을 수 있습니다. 그러나 보장 된 결과는 실질적으로 가치가 없습니다.

다음으로, 나는 공제 주의자, 회의론자, 위조 론자 입장을 정교화하려는 최선의 시도를 제시 할 것입니다. 확실히 유일한 것은 아니지만 다소 주류 또는 적어도 약간의 전통을 가진 것으로 생각합니다.

내가 이해하는 한 Fisher는 원래 데이터 탐색의 첫 단계로 중요도 테스트를 도입했습니다. 더 조사 할 가치가있는 요소를 설정하십시오. 시험에 귀무 가설이 실제로 적용되지 않은 한, 선호하는 이론이 당신이 선호하는 이론에 의존하는 (가혹한) 결정적인 가설이 아니라면, 초기 시험은 본질적으로 탐구 적이었습니다. 탐사 후 가능한 단계 중 내가 본

  • 추가 탐사
  • 모수 추정
  • 예측 및 확인

추가 탐색 은 중간에 정보가 있거나 영향을 미치는 변수가 있는지 유추하려고하는 후속 테스트로 구성됩니다. 예를 들어, 참가자의 나이가 중요한 역할을합니까? 이러한 분석은 탐색으로 명확하게 표시되어야하며 기본적으로 거짓말에 해당합니다. 무언가를 우연히 발견하면 먼저 확인이 필요합니다. 일반적으로, 당신은 당신의 생각과 글에서 항상 탐구 할 때와 확인시에 명확해야합니다.

다음으로, 당신은 당신이 하나 개의 매개 변수의 값에는 자신감이 정확하게 제로 존재하지 않았는지 설립 한 번 - 당신은 당신이 지금 가지고 테스트중인 계수를 고려할 것입니다 결정하면 어떤 하나의 가능한 다음 단계는 더에 수 - 영향을 추정 정확한 값 매개 변수의 . 예를 들어 현재로서는 하나의 값 0 (양측 테스트 가정) 만 제외했습니다. 그러나 데이터는 더 많은 가능한 값에 의문을 제기합니다.

αα

ume (Hume)은 우리가 성명을 정확하게 귀납적으로 증명할 수 없다고 주장했다. 일반적으로 사소한 가설은지지하는 것보다 항상 위조하기 쉽습니다. 원칙적으로 위조하기 쉽지만 (사소하지 않고 정확한 예측을 통해) 아직까지 위조되지 않은 것은 실제로 이론의 가장 큰 장점 중 하나입니다.

따라서 CI는 특정 가치를 입증하지 못합니다. 그러나 후보 세트를 좁 힙니다. 어쩌면 살아남은 유일한 후보자들이 H0과 양립 할 수없는 두 이론 사이에서 결정하는 데 도움이 될 수 있습니다. 예를 들어 0은 제외되지만 이론 1은 약 5 정도의 값을 예측하고 이론 2는 약 15 정도의 값을 예측합니다. 95 % CI에 5가 포함되어 있지만 15를 제외하면 이론 2에 대한 신뢰도 잃었지만 이론은 1이 게임에 남아 있습니다. 이는 실제로 초기 테스트가 중요하다는 것과는 별개입니다. 0이 거부되지 않은 값 중 하나라도 많은 값이 거부됩니다. 다른 연구자들에게는 이러한 가치 중 일부가 관심이 있었을 것입니다.

따라서 영향에 대한 이해를 어느 정도 명시한 후에 는 현재 분석에서 도출 할 수있는보다 정확한 가설을 테스트하는 후속 확인 실험을 이상적으로 더 정확하게 예측할 수 있습니다. 당연히, 초기 통계적 귀무 가설을 기각하는 것이 원래의 연구 가설 에 대한 테스트만큼 심각 하지 않습니까? 선호하는 것보다 더 많은 설명은 H0에 의존하지 않습니다. 또한 실제로 H0를 받아 들일 위험이 없었기 때문에 선호하는 이론 을 위조 할 수있는 입장이 없었습니다 ! 더 엄격한 테스트 가 필요합니다. 틀림없이 이것은 실제로 당신이 원하는 것입니다. 당신은 당신의 이론을 증명하기를 원하지 않고, 점점 더 심한 테스트를 받고 그것을 위조하려고합니다. 이를 반증하려는 그러한 진정한 (그러나 공정한) 노력에도 불구하고 이론이 제공 할 수있는 최선의 방법입니다. 그러나 심한 테스트를 위해서는 "0 it ai n't"보다 더 정확한 이론이 필요합니다.

이제 확인 연구에 관한 여러 가지 중요한 사실을 배웠습니다. 예를 들어, 해당 분산 및 효과 크기에 대한 아이디어가 있으므로 전력 분석을 통해 후속 연구에 필요한 샘플 크기를 추정 할 수 있습니다. 또한 특정 값을 예측하고 그에 대한 실질적인 동등 / ROPE 영역을 가정 할 수 있습니다 . 이 특정 가치가 진정한 가치라는 것을 증명할 수는 없습니다. 그러나 후속 실험의 CI가 전적으로 ROPE에 해당되는 경우 이론에 대한 증거를 입증하고 경쟁에 어려움을 겪을 수 있습니다.


6

당신이 긍정적 인 과학적 제안을 증명할 수없고, 단지 반증하는 아이디어는 포퍼의 위조 론의 원칙입니다 . 나는 효과가 주어진 점수와 정확히 같다는 것을 증명할 수 없다는 데 동의합니다 (여기서 나의 대답 은 통계 학자들이 왜 중요하지 않은 결과가 귀무 가설을 받아들이는 대신 "귀무를 귀납 할 수 없음"을 의미한다고 말합니까? ). 그러나 무엇?

사람들 (또는 적어도 나는 )은 가설 테스트에 대해 많은 불평을합니다. 때문입니다-값은 일반적으로 오해되며, 가설 테스트는 논리적으로 달성 할 수없는 작업에 사용됩니다. 예를 들어, 가설 검정을 사용하여 가설을 생성하거나 변수를 선택해서는 안됩니다. 또한 관측 데이터를 사용하면 본질적으로 모든 '없음'귀무 가설은 거짓이어야하므로 그러한 테스트는 의미가 없습니다. 그러나 과학자들은 종종 현재 이론에서 제안한 사전 이론 가설을 가지고 있으며 실제 실험에서 Null null이 참일 수 있으므로 테스트하는 것이 합리적입니다. 일반적으로 연구자들은 null이 거짓 일 수 있다고 의심 할만한 이유가 있으므로 강력한 실험과 함께 중요한 결과는 유효한 정보입니다.

항상 신뢰 구간을 형성하여 추정의 정밀도를보다 명확하게 파악하고 더 많은 데이터를 수집하여 정밀도를 높일 수 있습니다. 그럼에도 불구하고 경제적 인 측면에서 수익감소합니다 . 어떤 시점에서 귀무 가설이 연구중인 현상에 대한 합리적인 설명을 제공한다고 생각하지 않습니다. 어떤 경우에 왜 귀찮게합니까?

아직 확신하지 못했지만 더 많은 (같은) 데이터를 가지고있는 다른 사람들이 있다면 계속할 수는 있지만 드문 상황입니다. 회의론자들은 그 질문의 행이 근본적인 질문에 대해 충분히 유익한 지에 관한 다른 실질적인 관심을 가지고있을 가능성이 더 높습니다. 따라서 이러한 우려의 본질을 파악해야하며, 그들이 업무를 수행 할 가치가 있다고 생각되면 당면한 문제를보다 적절하게 해결하는 다른 데이터를 찾아보십시오. 예를 들어, 다른 측정 값, 다른 설정 및 / 또는 다른 제어 조건을 사용하여 결과를 복제하려고 할 수 있습니다.

반면에, 모든 사람 (더 많거나 적은)은 귀하의 데이터와 결론 (축하합니다)에 만족할 수 있습니다. 그러한 행복한 상황에서 연구 프로그램을 발전시키기 위해 추구 할 수있는 두 가지 방향이 있습니다.

  1. 환원의 접근 방식은 설정 한 효과를 생산 메커니즘을 이해하기 위해 노력한다. 통계적 용어로, 당신은 종종 당신이 관련된 것으로 보이는 변수연결하는 인과 적 힘의 패턴을 조정 하거나 조정 하는 것을 추구 할 것 입니다.

  2. 결과를 더 큰 패턴으로 통합하여 다른 방향으로 이동할 수도 있습니다. 이것은 일종의 시스템 사고 입니다. GH 하디 (Hardy) 는 이론의 우아함을 그것이 유발 한 유행성 변화의 용이성과 규모와 관련하여 설명 할 수있는 현상의 범위로 정의 했다. 물론, 당신은 당신이 설립 한 현상이 아주 깊어서 운이 좋지 않을 수도 있지만, 여전히 그 자체보다 더 큰 무언가의 일부일 수 있습니다. B 사이의 연결을 설정기음에이에이

tl; dr : 널 (null)이 거짓이라는 목적으로 충분한 증거가있는 경우, 이론적으로 동기 부여 된 다른 질문에 대해 답변하고 계속 진행할 수있는 것이 무엇인지 파악하십시오.


0

제가 추가하고 싶은 한 가지는 귀하의 질문이 저의 어린 자아를 상기시켜 준다는 것입니다. 필자가 작성중인 논문을 개선하는 데 도움이되는 방식으로 "가설이 잘못되었습니다"라는 글을 쓰지 않았기 때문에 필연적으로 내 가설을 증명하고 싶었습니다. . 그러나 나는 "나의 절대적으로 사랑스러운 가설을 입증 할 수 없다"는 과학적 가치도 가지고 있다는 것을 깨달았다. 1. 왜 당신의 가설이 물을 포함하지 않는지 생각해 보라. 데이터에 문제가 있거나 가설 자체에 문제가 있습니까? 2. 오래된 연구의 결과는 무엇입니까?

예를 들어, 나는 이전 데이터 셋보다 더 큰 새로운 데이터 셋을 사용하여 민족적 이해에 대한 석사 논문을 썼습니다. 나는 "석유 연료 민족 갈등"또는 "산악 종이 경험 충돌 갈 가능성이 높다"와 같은 몇 가지 논쟁의 가설을 테스트했습니다. 나는 석유가 민족적 갈등을 불러 일으킨다는 것을 증명할 수는 없었지만 가용 오일 데이터 셋의 품질이 분석에 어떤 영향을 미쳤는 지에 대한 두 페이지를 썼다 (데이터 셋 자체는 시계열이며 오일 웰 데이터 셋은 아니다). "산이 갈등을 일으킨다"는 논문도 실패 였지만 유익한 결과였다. 이전의 연구는이 논문을 국가 수준의 데이터 (예 : 국가의 평균 신장 등)로 분석했다.

명심하십시오 : 가설을 반증하는 것은 실패가 아니라 입증 된 가설만큼 좋은 결과입니다.


언급 한 가설은 (기존의) 귀무 가설이 아닙니다. OP의 요점을 놓친 것 같습니다.
Nick Stauner

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.