가설 검정을 계속 가르치고 사용하는 이유는 무엇입니까 (신뢰 구간을 사용할 수있는 경우)?


56

구간 추정기 (자신감, 부트 스트랩, 신뢰성 또는 기타)가있는 문제에 대해 가설 검정 (어려운 개념과 가장 통계적인 죄 중 하나)을 계속 가르치고 사용하는 이유는 무엇입니까? 학생들에게 가장 좋은 설명은 무엇입니까? 전통 만? 전망은 매우 환영받을 것입니다.



4
이 인용문 은 매우 적합합니다. 모든 모델이 잘못되었지만 일부 모델이 유용합니다.
mpiktas

답변:


60

이것은 내 개인적인 견해이므로 이것이 제대로 답변인지 확실하지 않습니다.

가설 검정을 가르쳐야하는 이유는 무엇입니까?

간단히 말해서, 매우 큰 이유 중 하나는, 모든 가능성에서,이 문장을 읽는 데 걸리는 시간에, 당신이 앉아있는 10 피트 반경 내에서 수천 (또는 수백만)의 가설 테스트가 수행되지 않았더라도 수백 번의 가설 테스트가 수행 되었기 때문입니다.

귀하의 휴대 전화입니다 확실히 는 기지국의 범위 내에 있는지 여부를 결정하기 위해 우도 비 테스트를 사용. 랩탑의 WiFi 하드웨어가 라우터와 통신 할 때 동일한 작업을 수행합니다.

이틀간의 피자 조각을 자동 재가열하는 데 사용한 전자 레인지는 피자가 언제 뜨거워 졌는지 결정하기 위해 가설 테스트를 사용했습니다.

얼음 도로에 너무 많은 가스를 주거나 타이어 압력 경고 시스템이 뒷좌석 승객 타이어가 비정상적으로 낮았고 헤드 라이트가 약 5시에 자동으로 켜지면 자동차의 트랙션 컨트롤 시스템이 작동했습니다. 황혼이 시작되면서 19pm.

iPad가 (노이즈) 가속도계 판독 값을 기반으로이 페이지를 가로 형식으로 렌더링합니다.

"당신"이 텍사스 주 베스트 바이 (Best Buy)에서 평면 TV를 구입하고 Zales에서 워싱턴 주 쇼핑몰의 점심, 가스 및 영화를 구매 한 후 2 시간 이내에 2000 달러짜리 다이아몬드 반지를 구매하면 신용 카드 회사가 카드를 종료했습니다. 피츠버그 교외의 집 근처.

브라우저에서이 웹 페이지를 렌더링하기 위해 전송 된 수십만 비트는 각각 개별적 으로 가설 테스트를 거쳤습니다.

그 "관련된"주제를 약간 오른쪽으로보십시오.

이러한 모든 것들은 가설 검정 으로 인해 "일어났다" . 이러한 많은 것들에 대해, 일부 파라미터의 일부 간격 추정치가 계산 될 수있다. 그러나 특히 자동화 된 산업 공정의 경우 가설 검정의 사용 및 이해가 중요합니다.


보다 이론적 인 통계 수준에서, 통계 력의 중요한 개념은 의사 결정 이론 / 가설 검증 프레임 워크에서 자연스럽게 발생합니다. 또한 순수한 수학자 인 "심지어"도 Neyman-Pearson의 명예와 그 증거의 아름다움과 단순함을 높이 평가할 수 있다고 생각합니다.

이것은 가설 검정이 잘 가르쳐 지거나 이해되었다고 말하는 것은 아닙니다. 대체로 그렇지 않습니다. 그리고, 특히 의학 분야에서 효과의 크기와 실용적 통계적 통계적 통계적 개념과 함께 간격 추정치를보고하는 것이 공식적인 가설 검정보다 보편적으로 선호된다는 데 동의하지만 이는 가설 검정과 관련이 있다는 것을 의미하지는 않습니다. 개념은 그 자체로는 중요하지 않고 흥미롭지 않습니다.


2
흥미로운 예제 목록을 가져 주셔서 감사합니다. 질문의 목표를 감안할 때 : 통계 과정 검토에 대한 토론에 기여하기 위해 우리는 현대 장치에서의 테스트 구현에 대한 자세한 정보를 얻으려고 노력할 것이며 엔지니어링 학생들에게 큰 동기가 될 수 있습니다.
워싱턴 S. 실바

3
대부분의 예제는 고전적인 가설 평가 (고정 신뢰 수준 포함)가 필요하지 않지만 의사 결정 절차가 필요합니다.
kjetil b halvorsen

1
친애하는 @kjetil : 정직하게, downvote는 약간 가혹한 것 같습니다. 실제로이 질문은 고전 가설 검정 에 대해 구체적인 것을 요구하지 않으며 내 대답도 그 가정을하지 않습니다! ( 가설 테스트 는 여기에서 광범위하게 해석되며, 정당한 이유가 있습니다.)
추기경

1
자동 재가열 전자 레인지를 구입해야합니다.
jmbejara

2
이것은 매우 설득력있는 답변이지만,이 모든 것들이 "가설 테스트"인 이유에 대해 조금 더 설명해 주시면 대단히 감사하겠습니다. 귀하의 모든 예는 자동 이진 결정에 관한 것임을 이해합니다. 나는 대부분의 경우 어떤 가치가 측정 된 다음 그 값이 위 또는 아래인지 결정하기 위해 컷오프와 비교된다고 생각합니다 (따라서 결정에 도달합니다). 이것은 이미 "가설 테스트"자격을 갖추 었습니까, 아니면 다른 의미가 있습니까? OP가 가설 테스트가 여전히 진행되는 이유에 대해 물었을 때 간단한 임계 값을 언급하지 않았다고 생각합니다.
amoeba는

29

여러 가지 이유로 가설 검정을 가르칩니다. 하나는 역사적입니다. 그들은 가설 테스트 관점을 읽고 이해하는 많은 사전 연구를 이해해야합니다. 두 번째는, 현대에도 불구하고, 다른 종류의 통계 분석을 수행 할 때 종종 암시 적으로 일부 연구자들에 의해 사용된다는 것입니다.

그러나 제가 가르 칠 때, 이러한 가정과 추정은 건물 모델의 일부라고 모델 구축의 틀에서 가르칩니다. 이렇게하면 더 복잡하고 이론적으로 흥미로운 모델을 비교하는 것이 비교적 쉽습니다. 연구는 이론이 아닌 이론이 아닌 이론에 대해 종종 구덩이를 던진다.

가설 검정의 죄는 수학에 내재되어 있지 않으며 이러한 계산을 올바르게 사용합니다. 그들이 주로 거짓말을하는 곳은 지나치게 의존하고 잘못 해석합니다. 순진한 대다수의 연구자들이 이러한 것들과의 관계를 전혀 인식하지 않고 구간 추정을 독점적으로 사용한다면 우리는 가설이라고 부를 수 있습니다.


+1 감사합니다. 잘 논쟁했다. 그러나 입문 과정에서는 엄격한 의미에서 모델 선택이 없습니다. 가설 검정 도입에 적합한 다른 상황을 인용 할 수 있습니까? 검정력을 추정하지 않고 시험 결과를보고하는 것이 허용됩니까?
워싱턴 S. 실바

2
입문 과정에서 모델을 선택할 필요는 없습니다. 코스 변경을 고려하고 있다면 시작하기 좋은 곳으로 고려하십시오.
John

20

저는 개인적으로 우리가 가설 검증없이 더 나아질 것이라고 생각합니다. 가설 검정이 독특하고 유용한 무언가를 제공하는 곳을 생각할 수있는 유일한 곳은 여러 자유도 관절 가설 검정 영역입니다. 예에는 두 개 이상의 그룹을 비교하기위한 분산 분석, 주 효과와 교호 작용을 결합한 동시 검정 (총 효과 검정) 및 연속 예측 변수와 관련된 선형 및 비선형 항을 결합한 동시 검정 (다중 df 검정 연관)이 포함됩니다. 간단한 것의 경우 구간 추정이 더 쉽고 값보다 오도 될 가능성이 훨씬 적습니다 . 고전 논문에서 잘 언급했듯이 증거의 부재는 부재의 증거가 아니며 , 큰 값에는 정보가 없습니다. P P PPPP-값 은 가설 에 반대 되는 증거 만 제공 하며 절대로 찬성하지 않습니다 (큰 값 을 해석하는 방법을 물었을 때 Fisher의 응답 은 "더 많은 데이터 얻기"). 자신감 또는 신뢰할 수있는 간격은 연구원이 모르는 정도를 설명함으로써 연구원의 정직성을 유지합니다.P


2
"일부 장소 ..."및 "ANOVA 포함 ..."이라는 일부 필드에서는 방대한 양의 통계 도구 상자를 다루었 음을 의미하지 않습니다.
Fomite

4
나는이 입장에 대해 말할 것이 많다고 생각한다. 많은 연구자들이 대부분 데이터의 패턴에 대해 알고 싶어한다는 점을 감안할 때 많은 통계를 합리적으로 정리하고 단순히 데이터 플롯을 사용할 수 있는지 궁금했습니다. (물론 이것은 줄거리가 기술적으로 통찰력있게 수행 될 것이라고 가정하고, 우리가 그것에 대해 말할 수 있다면 가설 테스트는 나쁘지 않을 것이라고 가정합니다.)
gung-Reinstate Monica

1
엄밀히 말하면, 나는 "증거의 부재는 부재의 증거가 아니다"라는 말에 동의하지 않는다. 효과에 대한 증거 가 없다고해서 아무런 효과가 없다는 증거 는 아니지만 , 그 효과에 대한 증거 는 확실 합니다. 문제는 중요하지 않은 결과에 미치는 영향에 대한 증거의 양에 관한 것입니다. 내가 생각하는 큰 p- 값의 문제 정규 분포의 경우 큰 p- 값 적합도의 단조 함수이므로 가설의 증거입니다. 그리고 정규 분포가 너무 일반적이기 때문에 사람들은 이것을보고 외삽합니다.
확률 론적

5
큰 는 여러 가지 중 하나를 의미합니다. 차이가 작거나 변동성이 너무 크거나 표본 크기가 너무 작습니다. 따라서 증거 부재 문서의 제목입니다. P
Frank Harrell

11

나는에 따라 생각 하는 당신에 대해 이야기하고 테스트 가설. "고전적인"가정 테스트 (Neyman-Pearson)는 테스트를 수행 할 때 실제로 발생한 상황을 적절하게 조절하지 않기 때문에 결함이 있다고합니다 . 대신 실제로 보았던 것과 상관없이 작동하도록 설계되었습니다. 그러나 조건을 지키지 않으면 개별 사례에서 잘못된 결과를 초래할 수 있습니다. 이는 절차가 장기적으로 개별 사례에 대해 "관심을 두지 않기"때문입니다.

가설 테스트는 의사 결정 이론적 프레임 워크에서 캐스트 할 수 있습니다.이를 이해하는 것이 훨씬 더 좋은 방법이라고 생각합니다. 두 가지 결정으로 문제를 다시 설명 할 수 있습니다.

  1. " 이 사실 인 것처럼 행동 합니다"H0
  2. " 가 사실 인 것처럼 행동 합니다"HA

의사 결정 프레임 워크는 "무엇을 하시겠습니까?"라는 개념을 명확하게 구분하기 때문에 이해하기가 훨씬 쉽습니다. "진리는 무엇입니까?" (사전 정보를 통해).

질문에 "결정 이론"(DT)을 적용 할 수도 있습니다. 그러나 가설 테스트를 중단하기 위해 DT는 다른 결정을 내려야한다고 말합니다. 따라서 문제는 : 가설 검정이 포기되면 어떻게해야합니까? 이 질문에 대한 답을 생각할 수 없습니다. 가설 검정을 수행하는 대체 방법 만 생각할 수 있습니다.

(참고 : 가설 검정의 맥락에서 데이터, 샘플링 분포, 사전 분포 및 손실 함수는 모두 결정을 내리기 전에 얻은 것이므로 모든 사전 정보 입니다.)


이 문제에 대한 나의 목표는 내가 브라질에서 일하는 연구소에서 진행중인 통계의 과정 개정에 대한 토론을 풍부하게하기 위해 전문가 의견을 수집하는 것이 었습니다. @cardinal, @Andrew Robinson, @probabilityislogic 및 @JMS에 대한 의견과 함께 의견을 제시하여 목표를 달성하고 있습니다. 분명히 가설 검정 (NP, DT 또는 Byes를 통한)은 매우 잘 가르쳐야하지만 통계 교리의 보편성을 감안할 때 적절한 과정을 구축하는 데 필요한 과제는 기술 자체와 동일하거나 더 복잡합니다. 당신의 기여에 감사합니다.
Washington S. Silva

1
합리적인 손실 / 유틸리티 기능을 포함하는 베이지안 방법을 엄격하게 사용하여 결정 이론을 좋아합니다. 이러한 기능을 사용할 수 없으면 구간 추정을 선호하는 경향이 있습니다.
Frank Harrell

@FrankHarrell-동의하지만, 여전히 유틸리티 기능이 정보 내용 (즉, 우리가 보유한 정보를 더 많이 사용하는 결론)에 기반을 둔 일종의 "결정 이론"으로 구간 추정을 분류 할 것입니다. 사후 분포 자체와 예측이 관심있는 경우 사후 예측에 의해 가능합니다. 간격 추정은 후부의 편리한 요약을 제공합니다. 손의 데이터 외부 정보가 부족 때 좋은 신뢰 구간 (MLE에 따라 예를 들어)이 아주 좋은 근사치를 제공
probabilityislogic

일반적으로 특정 결정을 염두에 두지 않을 경우 (예 : 합리적인 손실 함수가없는 주된 이유) 구간 추정을 사용하므로 다양한 시나리오를 수용해야합니다.
chanceislogic

9

만약 내가 하드 코어 Frequentist라면, 신뢰 구간은 규칙적으로 거꾸로 된 가설 검정, 즉 95 % 구간이 단순히 당신의 데이터와 관련된 시험이 0.05에서 거부하지 않는 모든 포인트를 설명하는 또 다른 방법 일 때를 상기시켜 줄 것입니다. 수평. 이러한 상황에서 다른 것보다 선호하는 것이 방법보다는 설명의 문제입니다.

물론, 박람회는 중요하지만, 저는 이것이 꽤 좋은 주장이라고 생각합니다. 두 가지 접근 방식을 다른 관점에서 동일한 추론의 설명으로 설명하는 것이 깔끔하고 명확합니다. (모든 구간 추정기 역전 된 테스트가 아니라는 사실은 교육적 측면에서 우아하지만 특히 어색한 사실은 아닙니다).

위에서 지적한 바와 같이, 관측에 대한 조건 결정의 결정에서 훨씬 더 심각한 의미가 발생합니다. 그러나 후퇴에서도 Frequentist는 관측에 대한 조정이 현명하지 않거나 비 조명적일 수있는 많은 상황 (아마 대다수는 아님)이 있음을 항상 관찰 할 수있었습니다. 이를 위해 HT / CI 설정은 정확히 '원하는'것이 아니라 원하는대로 가르쳐야합니다.


공식적으로 말하면, 제 1 종 오류율에 알파 바운드가 있는 가설 검정은 적용 범위 매개 변수 (1-alpha)를 사용하여 신뢰 구간으로 전환 할 수 있습니다. 나는 이것이 정의에 수반된다고 믿기 위해 하드 코어 빈번한 사람이어야한다고 생각하지 않습니다. :-)
Keith Winstein

3
@Keith 정의에 대한 논쟁은 없지만, 당신은 그것들을 흥미롭고 편리한 수학 이상의 것으로 생각하기 위해 빈번한 주의자가되어야합니다. 즉, 표본 이론 이론적 특성이 통계적 추론에 필수적이라고 생각 한다면 , 우리가 동의하는 것처럼 이러한 대칭성을 가지기 때문에 신뢰 구간과 가설 검정에 동등하게 열중 할 것입니다. 광산은 '좋은'CI와 '나쁜'HT 사이의 질문자 대조에 대한 응답이었습니다. 그것들을 함께 묶음으로써 나는 다른 답변에서 제기 된 대조에 다시 초점을 맞추고 싶었습니다.
공역 이전

7

초기 통계 학생들에게 Neyman Pearson 가설 테스트를 가르 칠 때, 나는 종종 의사 결정의 원래 설정에서 찾기 위해 노력했습니다. 그런 다음 귀무 가설을 받아 들일 수 있다는 생각과 마찬가지로 유형 1 및 유형 2 오류의 인프라가 모두 의미가 있습니다 .

우리는 결정을 내려야하며, 결정의 결과는 모수에 대한 지식으로 개선 될 수 있다고 생각하며, 그 모수에 대한 추정치 만 있습니다. 우리는 여전히 결정을 내려야합니다. 그렇다면 모수의 추정치와 관련하여 가장 좋은 결정은 무엇입니까?

원래의 설정 (불확실성에 대한 결정을 내림)에서 NP 가설 검정은 완벽하게 이해되는 것 같습니다. 예를 들어 N & P 1933, 특히 p. 291.

네이 먼과 피어슨. 통계적 가설에 대한 가장 효율적인 테스트 문제. 런던 왕립 학회의 철학적 거래. 시리즈 A, 수학 또는 물리 특성의 논문 (1933) vol. 231 289-337 쪽


4

가설 검증은 많은 의문을 제기 할 수있는 유용한 방법입니다. 치료 효과가 0이 아닌가? 이러한 진술과 통계 모델 또는 절차 (간격 추정기 구성 포함) 사이의 능력은 내가 생각하는 실무자에게 중요합니다.

또한 신뢰 구간 (전통적인 의미에서)은 본질적으로 가설 검증보다 덜 문제가되지 않는다는 점을 언급하고 있습니다.

아마도 문제는 고전 버전이므로 가설 검정이나 구간 추정이 아닐 수도 있습니다. 베이지안 공식은 이것들을 아주 잘 피합니다.


2
@JMS, "소개 통계 학생이 신뢰 구간의 실제 정의를 얼마나 알고 있습니까?" 또는 박사 통계학자는 그 문제에 대해 졸업합니다.
추기경

아주! 덧붙여서, 나는 어떤 줄무늬의 학생이나 실무자를 파 헤치려하지 않았습니다. 그러나 통계의 고급 작업에 가입하지 않은 사람의 정신 체조를 기대하는 것은 약간 미친 일입니다.
JMS

2
CI의 실제 정의를 몇 사람 이 말할 수 있습니까? 그리고이 정의에 따라 얼마나 많은 사람들이 그것들을 일관되게 사용합니까? CI가 무엇인지 모르 더라도 "매개 변수가 해당 간격 내에있을 수 있습니다"라고 생각하지 않는 것은 너무 어렵습니다 .
확률

평범한 사람들의 일상 생활
워싱턴 S. 실바

1
내가 표현하려고 시도한 것은 검정력 추정치가 수반되지 않은 가설 검정에 매우 의문의 여지가 있으며 간격 추정치에는 이러한 추가 합병증 원인이 없다는 것입니다.
워싱턴 S. 실바

2

그 이유는 의사 결정입니다. 대부분의 의사 결정에서 결정을 내립니다. 하루 종일 간격을 계속 볼 수 있으며 결국에는 결정을 내릴지 여부가 결정됩니다.

가설 테스트는 YES / NO의 간단한 현실에 잘 맞습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.