양측 테스트… 나는 단지 확신하지 못한다. 점은 무엇인가?


59

다음 발췌 부분은 다음과 같습니다. 단측 및 양측 테스트의 차이점은 무엇입니까? UCLA의 통계 도움말 사이트에서

... 다른 방향으로 영향을 미치지 않은 결과를 고려하십시오. 기존 약물에 비해 개선 된 것으로 생각되는 새로운 약물을 개발했다고 상상해보십시오. 개선 사항을 감지하는 능력을 최대화하기 위해 단측 테스트를 선택하십시오. 그렇게하면 새로운 약이 기존 약보다 효과가 적은지 테스트하지 않습니다.

가설 검정의 절대 기초를 배우고 1 대 2 테일 검정에 대한 부분을 얻은 후 ... 나는 기본 수학을 이해하고 하나의 테일 검정의 검출 능력을 높이는 등 ...하지만 머리를 감쌀 수는 없습니다. 한 가지 주위에 ... 요점이 뭐야? 샘플 결과가 한쪽에만 있거나 다른쪽에 만있을 때 두 극단 사이에서 알파를 나누는 이유를 이해하지 못했습니다.

위의 인용 된 텍스트에서 예제 시나리오를 보자. 반대 방향으로 결과를 어떻게 "테스트 실패"할 수 있습니까? 샘플 평균이 있습니다. 당신은 당신의 인구 평균을 가지고 있습니다. 간단한 산술은 어느 것이 더 높은지를 알려줍니다. 반대 방향으로 테스트하거나 테스트하지 못하는 것은 무엇입니까? 표본 평균이 다른 방향으로 나왔다는 것을 분명히 알면 반대 가설을 가지고 처음부터 다시 시작하는 것이 무엇입니까?

같은 페이지에서 다른 인용 :

귀무 가설을 기각하지 못한 양측 검정을 실행 한 후 단측 검정을 선택하는 것은 양측 검정의 유의 수준에 얼마나 "가까운"상관없이 적절하지 않습니다.

나는 이것이 꼬리 테스트의 극성을 바꾸는 데에도 적용된다고 생각합니다. 그러나이 "의사"결과는 처음에 올바른 단측 테스트를 선택한 것보다 덜 유효합니까?

분명히 나는 ​​그림의 큰 부분을 놓치고 있습니다. 그것은 모두 너무 임의적 인 것처럼 보입니다. "통계적으로 유의미한"-95 %, 99 %, 99.9 %를 나타내는 것은 시작하기에 임의적입니다.


18
이것은 나에게 완벽한 질문 인 것 같습니다, +1.
gung-모니 티 복원

5
데이터를 수집하기 전에 실험과 테스트를 설계해야한다는 것이 분명하지만, 신약이 종종 일방적 인 테스트를 거치지 않고 많이 테스트된다는 사실을 고려할 때 약물에 대한 예제는 다소 흥미 롭습니다 .
P-Gn

3
@ user1735003 많은 기분 / 행동 조절 제약 시험을 고려하는 아이러니 한 기사가 관찰자 편견에 대한 조사가 증가하고 있습니다. 리탈린의 흥미로운 코크레인 . "위약의 클레임 우월성"은 모든 시범이 "해"라고 부르는 것이므로 최소한 생각할 수는 없습니다. 그러나이 시험에서 연구가 해를 끼치 지 않으면 부작용이 발생했다는 신호입니다.
AdamO

10
"샘플 평균이 있습니다. 모집단 평균은 ... 샘플 평균이 다른 방향으로 나왔다는 것을 분명히 알면 반대 가설을 가지고 처음부터 시작하는 것을 멈추게하는 이유는 무엇입니까?" . 아니요, 가설 검정의 요점은 모집단 평균 이 없으며 표본 평균을 사용하여 모집단 평균 (제로 가설)에 대한 가정을 테스트하는 것입니다. 따라서 "샘플 평균이 나갔음을 분명히 알 수 없습니다 " 는 정확히 주어진 것이 아니라 테스트하는 것이기 때문입니다.
StAtS

1
문제는 종종 극성을 알지 못하는 것이므로 양측 테일 테스트를 실행해야합니다. 어떤 플러그가 포지티브인지 알 수 없을 때 전압계를 DC 전원 공급 장치에 연결한다고 상상해보십시오.
Aksakal

답변:


46

데이터를 빙산의 일각으로 생각하십시오. 물 위에서 볼 수있는 모든 것은 빙산의 일각이지만 실제로는 전체 빙산에 대해 배우는 데 관심이 있습니다.

통계 학자, 데이터 과학자 및 데이터를 다루는 다른 사람들은 수선 위에 보이는 것이 영향을받지 않도록하고 수선 아래에 숨겨져있는 것에 대한 평가를 기울이지 않도록주의합니다. 이러한 이유로 가설 검정 상황에서는 빙산을 전체적으로 볼 수있을 때 발생할 수있는 일에 대한 기대치 (또는 부족)에 따라 빙산의 일각을보기 전에 귀무 가설과 대립 가설을 공식화하는 경향 이 있습니다. .

가설을 공식화하기 위해 데이터를 보는 것은 좋지 않은 일이며 피해야합니다. 말 앞에 카트를 놓는 것과 같습니다. 데이터는 대상 모집단 / 유니버스에서 선택한 단일 샘플 (임의의 선택 메커니즘을 사용함)에서 가져온 것임을 상기하십시오. 표본에는 고유 한 특성이 있으며 기본 모집단을 반영하거나 반영하지 않을 수 있습니다. 왜 가설이 전체 모집단 대신 좁은 모집단 조각을 반영하기를 원합니까?

이를 고려하는 또 다른 방법은 무작위 모집단 메커니즘을 사용하여 대상 모집단에서 표본을 선택할 때마다 표본이 다른 데이터를 생성한다는 것입니다. 귀무 가설 및 대립 가설의 사양을 안내하기 위해 데이터를 사용하지 않아야하는 경우 가설은 기본적으로 각 샘플의 특유한 특징에 의해 유도됩니다. 물론 실제로 우리는 하나의 표본 만 추출하지만, 다른 사람이 같은 크기의 다른 표본으로 동일한 연구를 수행하는 경우 현실을 반영하기 위해 가설을 변경해야한다는 것을 아는 것은 매우 불쾌한 생각입니다. 그들의 샘플.

저의 대학원 교수 중 한 명은 "우리는 표본에 대해 사람들에게 알려주는 것을 제외하고는 표본에 신경 쓰지 않습니다" 라고 매우 현명하게 말했습니다 . 대상 모집단에서 선택한 표본이 아니라 대상 모집단에 대해 배우기 위해 가설을 공식화하려고합니다.


1
@ subhashc.davar : 내 대답의 관련성을 보지 못했다고해서 다른 사람이 그렇지 않다는 의미는 아닙니다. 답변은 질문 한 사람 만이 아니라 전체 커뮤니티를위한 것임을 명심하십시오. 이에 대해 강하게 느끼면 답변을 삭제 해 드리겠습니다.
Isabella Ghement

7
@ subhashc.davar 예가 도움이 될 수 있습니다. 간식이 성능에 영향을 미치는지 테스트한다고 가정 해보십시오. 실험을 실행하고 스낵에서 약간의 점수 획득을 찾으십시오. 큰! 스낵 테스터> 스낵이 아닌지 확인하기 위해 한쪽 꼬리 테스트를 실행하십시오. 문제점 : 스낵이 더 나쁜 곳에서 샘플을 채취하면 어떻게했을까요? 스낵이 아닌 스낵을위한 단테 일 테스트를 하시겠습니까? 그렇다면 오류가 발생하여 샘플 특성 동기화가 테스트를 안내하도록하는 것입니다.
RM

21
교수님의 일화 : "우리는 산부인과 병동에서 친구의 신생아 딸을 방문했습니다. 20 명의 아이들과 20 명 중 18 명은 분홍색 모자를 쓰고있었습니다. / 50. 통계적으로 매우 중요합니다. 그래서 누가이 논문을 저와 함께 쓰고 싶어합니까?
AdamO

4
@AdamO 나는 당신의 의견이 답변 자체보다 더 나은 설명을 찾았습니다. 나는 마지막 문장을 ' 가설을 생성하기 위해 가설을 테스트하기 위해 가설을 생성 한 것과 동일한 데이터를 사용 해서는 안된다 '로 바꾸겠다 . 관련된 의미는 이전에 선택한 테스트 결과에 따라 가설 을 변경 하는 것이 좋습니다. 그러나 새로운 데이터로 새로운 가설을 테스트해야합니다.
Kenny Evitt

3
@KennyEvitt 네 맞습니다. 부수적 발견은 중요하며보고되어야하지만 사전에 지정된 가설로 판매해서는 안됩니다.
AdamO

18

귀하의 질문을 고려할 때 귀무 가설 유의성 검정 (NHST)의 목표 / 판매 지점을 염두에두면 도움이된다고 생각합니다. 통계적 추론에 대한 하나의 패러다임 (매우 인기있는 패러다임) 일 뿐이며 다른 추론도 자체 강점을 가지고 있습니다 (예 : 베이지안 추론과 관련된 NHST에 대한 논의는 여기 참조 ). NHST의 큰 장점은 무엇입니까? : 장기 오류 제어 . NHST의 규칙을 따르는 경우 (그리고 때로는 매우 큰 경우) 장기적으로는 추론이 잘못 될 가능성에 대해 잘 알고 있어야합니다.

NHST의 당연한 규칙 중 하나는 테스트 절차를 추가로 변경하지 않으면 관심 테스트를 한 번만 볼 수 있다는 것입니다. 실제로 연구원들은 종종이 규칙을 무시하거나 인식하지 못하고 (Simons et al., 2012 참조), 데이터를 추가하고 점검 한 후 여러 테스트를 수행합니다.p-모델에 변수를 추가 / 제거한 후의 값. 이것의 문제점은 NHST의 결과와 관련하여 연구원이 거의 중립적이지 않다는 것입니다. 그들은 중요한 결과가 중요하지 않은 결과보다 출판 될 가능성이 높다는 것을 잘 알고있다 (잘못 안내되고 합법적 인 이유 때문에; Rosenthal, 1979). 따라서 연구원들은 종종 데이터를 추가 / 모델 수정 / 이상 값을 선택하고 중요한 효과를 발견 할 때까지 반복적으로 테스트해야합니다 (John et al., 2011, 좋은 소개 참조).

위의 관행에 의해 반 직관적 인 문제가 발생합니다. Dienes (2008)에 설명되어 있습니다. 만약 연구자들이 중요성이 달성 될 때까지 샘플 / 디자인 / 모델을 계속 조정한다면, 원하는 오 탐지의 장기 오류율 (종종 ) 및 부정적 결과 (종종α=.05β=.20H0

ααp

마지막으로 (개인 취향의 문제로) 처음 두 꼬리 테스트를 수행하고 중요하지 않은 것으로 발견 한 다음 첫 번째 테스트가 암시하는 방향으로 한쪽 꼬리 테스트를 수행하면 문제가 거의 없습니다. 다른 샘플에서 해당 효과의 엄격한 확인 복제를 수행하고 동일한 논문에 복제를 게시 한 경우 (및 경우에만) 중요한 것으로 나타났습니다 . 유연한 분석 방법으로 오류율을 높이는 탐색 적 데이터 분석은 동일한 분석 유연성없이 새로운 샘플에서 효과를 복제 할 수 있다면 좋습니다.

참고 문헌

Dienes, Z. (2008). 과학으로서의 심리학 이해 : 과학 및 통계적 추론에 대한 소개 . Palgrave Macmillan.

John, LK, Loewenstein, G., & Prelec, D. (2012). 진실한 이야기에 대한 인센티브로 의심스러운 연구 관행의 유병률을 측정합니다. 심리학 , 23 (5), 524-532.

Rosenthal, R. (1979). 파일 드로어 문제점 및 널 결과에 대한 허용 오차. 심리 게시판 , 86 (3), 638.

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011). 거짓 양성 심리학 : 데이터 수집 및 분석에 공개되지 않은 유연성으로 중요한 것을 제시 할 수 있습니다. 심리학 , 22 (11), 1359-1366.


아주 좋은 답변입니다. 최근 연구 논문 (평신도로서)에 대해 조사 할 때 우려했던 부분을 정리하는 데 도움을주었습니다. 기존의 "부정적" 상관 관계 "방향이 거짓입니다.
Venryx

10

불행히도, 약물 개발의 동기 부여 예는 우리가 약물을 개발하기 위해하는 것이 아니기 때문에 좋은 예가 아닙니다. 트렌드가 피해를 입을 경우 연구를 중단하기 위해 더 엄격하고 다른 규칙을 사용합니다. 이것은 환자의 안전을위한 것이며 약물이 의미있는 이익의 방향으로 마술처럼 흔들리지 않을 수도 있기 때문입니다.

그렇다면 왜 두 개의 테일 테스트가 있습니까? (대부분의 경우 모델링하려는 효과 방향에 대한 사전 개념 이있을 때 )

귀무 가설은 부담해야 몇 가지 정보를, 그럴듯하고 정당하다는 의미에 대한 믿음을 닮은. 대부분의 경우, 사람들은 "무관심한 결과"가 효과가 0 인 경우에 동의하는 반면, 부정적이거나 긍정적 인 효과는 동일한 관심사입니다. 그것은 우리가 통계가 동일 할 수 알고있는 경우 경우 예를 들어, 복합 귀무 가설을 명확히하는 것은 매우 어렵 거나일정량 미만. 과학적 연구 결과를 이해하기 위해 귀무 가설에 대해 매우 분명해야합니다. 복합 가설 검정을 수행하는 방식은 귀무 가설 아래의 통계량이 관측 된 데이터 범위 내에서 가장 일관된 값을 가정한다는 것입니다. 따라서 효과가 예상대로 양의 방향에 있다면, null 값은 0이되고 불필요하게 반향됩니다.

두 개의 테일 테스트는 다중 비교를위한 제어를 통해 두 개의 단측 테스트를 수행하는 것입니다! 양측 테스트는 장기적으로 더 보수적이기 때문에 실제로 부분적으로 평가됩니다. 우리가 효과의 방향에 대해 잘 알고있을 때, 양측 테일 테스트는 전체적인 힘에 거의 영향을 미치지 않으면서도 절반으로 오탐 (false positive)을 생성합니다.

무작위 대조 시험에서 치료를 평가하는 경우, 단측 검사를 판매하려고하면 "잠깐, 왜 치료가 실제로 유해하다고 생각하겠습니까?"라고 묻지 말아야합니다. "[유익한 효과를 보여줄 수있는 능력] equipoise가 있습니까?" 단측 테스트의 논리적 불일치로 인해 전체 연구가 문제가됩니다. 아무 것도 알려지지 않은 경우 0 이외의 값은 흥미로운 것으로 간주되며 양측 테스트는 좋은 생각이 아니라 필요합니다.


8

접근 방법 중 하나는 가설 검정을 일시적으로 잊어 버리고 대신 신뢰 구간을 생각하는 것입니다. 단측 검정은 단측 신뢰 구간에 해당하고 양측 검정은 양측 신뢰 구간에 해당합니다.

모집단의 평균을 추정한다고 가정합니다. 당연히 표본을 취하여 표본 평균을 계산합니다. 액면가를 기준으로 추정 할 이유가 없으므로 합리적으로 자신의 평균을 포함하고 있다고 확신하는 구간으로 답을 표현하십시오. 어떤 유형의 간격을 선택합니까? 양면 간격이 훨씬 자연스러운 선택입니다. 단측 구간은 추정의 상한 또는 하한을 찾는 데 신경 쓰지 않는 경우에만 의미가 있습니다 (단, 한 방향으로 유용한 경계를 이미 알고 있다고 생각하기 때문에). 얼마나 자주 당신은 정말 상황에 대해 확인?

아마도 질문을 신뢰 구간으로 전환한다고해서 실제로 문제가 해결되지는 않지만 단측 검정을 선호하지만 양면 신뢰 구간을 선호하는 것은 방법 론적으로 일관성이 없습니다.


4

가설 검정의 절대 기본을 배우고 1 대 2 테일 검정에 대한 부분을 얻은 후 ... 나는 기본 수학을 이해하고 하나의 테일 검정의 검출 능력을 높이는 등 ...하지만 머리를 감쌀 수는 없습니다. 한 가지 주위에 ... 요점이 뭐야? 샘플 결과가 한쪽에만 있거나 다른쪽에 만있을 때 두 극단 사이에서 알파를 나누는 이유를 이해하지 못했습니다.

문제는 인구 평균을 모른다는 것입니다. 실제 인구 평균을 알고있는 실제 시나리오를 본 적이 없습니다.

위의 인용 된 텍스트에서 예제 시나리오를 보자. 반대 방향으로 결과를 어떻게 "테스트 실패"할 수 있습니까? 샘플 평균이 있습니다. 당신은 당신의 인구 평균을 가지고 있습니다. 간단한 산술은 어느 것이 더 높은지를 알려줍니다. 반대 방향으로 테스트하거나 테스트하지 못하는 것은 무엇입니까? 표본 평균이 다른 방향으로 나왔다는 것을 분명히 알면 반대 가설을 가지고 처음부터 다시 시작하는 것이 무엇입니까?

나는 당신의 단락을 여러 번 읽었지만 여전히 당신의 주장에 대해 확신하지 못합니다. 문구를 바꾸시겠습니까? 선택한 중요 지역에 데이터가 도착하지 않으면 "테스트"에 실패합니다.

나는 이것이 꼬리 테스트의 극성을 바꾸는 데에도 적용된다고 생각합니다. 그러나이 "의사"결과는 처음에 올바른 단측 테스트를 선택한 것보다 덜 유효합니까?

p- 값을 해킹하는 것이 부적절하기 때문에 따옴표가 맞습니다. "야생에서"p- 해킹에 대해 얼마나 알고 있습니까? 자세한 내용이 있습니다.

분명히 나는 ​​그림의 큰 부분을 놓치고 있습니다. 그것은 모두 너무 임의적 인 것처럼 보입니다. "통계적으로 유의미한"-95 %, 99 %, 99.9 %를 나타내는 것은 시작하기에 임의적입니다. 도움?

임의적입니다. 그렇기 때문에 데이터 과학자는 일반적으로 p- 값 자체의 크기 (유의하거나 중요하지 않은 것)와 효과 크기를보고합니다.


분명히, 나는 통계적 추론의 기초에 도전하려고하지 않습니다. 내가 말했듯이, 나는 단지 기본을 배웠으며 올바른 테스트를 사용하지 않으면 잠재적 인 결과를 놓칠 수있는 방법을 이해하는 데 어려움을 겪고 있습니다.
FromTheAshes

친구 인 Joe가 식물 성장을 크게 향상 시킨다고 주장하는 새로운 제품을 발명한다고 가정 해보십시오. 흥미롭게도, 당신은 통제 그룹과 치료 그룹과의 강력한 연구를 고안했습니다. 당신의 null hyp. 성장에 변화가 없을 것입니다. Joe의 매직 스프레이는 성장을 크게 증가 시켜서 단발 테스트입니다. 2 주 후에 최종 관찰을하고 결과를 분석합니다. 처리 군의 평균 성장은 대조군보다 5 표준 오차 이상인 것으로 밝혀졌다. 시험 선택으로 인해이 점이 분명하거나 덜 유효하다는 것을 어떻게 알 수 있습니까?
FromTheAshes 11

2
동전 던지기를 위해 머리 또는 꼬리를 부를 것을 요청하면 결과를 예측할 확률은 50/50입니다 (균형 동전과 정직한 플리퍼를 가정). 그러나 동전을 먼저 뒤집어보고 보도록 한 다음 더 이상 50/50이되지는 않습니다. 알파 수준이 .01 인 단측 테스트를 수행하고 있지만 다른 방향으로 p <.01이기 때문에 결과를 본 후 테스트 방향을 뒤집 으면 Type I 오류의 위험은 더 이상 .01이 아닙니다. 그러나 훨씬 더 높습니다. 관찰 된 p- 값과 제 1 종 오류율은 동일하지 않습니다.
dbwilson

@FromTheAshes 기초에 도전하는 데 아무런 문제가 없습니다. 통계적 가설 검정은 쓸모가 없지만 거대한 논리적 결함이 포함되어 있으며 이에 대한 도전은 절대적으로 합리적입니다!
Flounderer

3

글쎄, 모든 차이점은 당신이 대답하려는 질문에 달려 있습니다. 질문이 "한 그룹의 값이 다른 그룹보다 큰가?" 한쪽 테일 테스트를 사용할 수 있습니다. 질문에 대답하려면 : "이러한 값 그룹이 다른가?" 양측 테일 테스트를 사용합니다. 데이터 세트가 다른 데이터보다 통계적으로 높을 수 있지만 통계적으로 다르지 않다는 점을 고려하십시오.


1
'질문이 : "한 그룹의 값이 다른 그룹보다 더 큰가?" 꼬리 테일 테스트를 사용할 수 있습니다. ' 보다 정확하게 질문이 "이 특정 그룹이 다른 그룹보다 큽니까?"인 경우 양측 테스트를 사용해야합니다.
Accumulation

" 다른 그룹이 실제로 더 큰 것처럼 보이는 경우에는 신경 쓰지 않는다 "는 질문을하는 경우에는 암시 적입니다 . 만약 당신이 기대하는 것과 반대되는 것을보고 가설 검정의 방향을 뒤집기 만한다면, 당신은 단지 자기 자신에게 거짓말을했고 처음부터 양 꼬리 검정을했을 것입니다.
Dason

2

그러나이 "의사"결과는 처음에 올바른 단측 테스트를 선택한 것보다 덜 유효합니까?

알파 값은 널이 참인 경우 널을 거부 할 확률입니다. 표본 평균이 보통 평균 0으로 분포되어 있다고 null이 가정합니다. P (sample mean> 1 | H0) = .05 인 경우 규칙은 "샘플을 수집하고 샘플 평균이 1보다 크면 null을 거부합니다"라는 규칙은 null이 true 인 경우 5 %의 확률을 갖습니다. 널을 거부합니다. "샘플을 수집하고 표본 평균이 양수이면 표본 평균이 1보다 크면 null을 기각하고 표본 평균이 음수이면 표본 평균이 1보다 작 으면 null을 기각합니다." null이 참인 경우 null을 거부 할 확률의 10 % 따라서 첫 번째 규칙의 알파는 5 %이고 두 번째 규칙의 알파는 10 %입니다. 양측 테스트로 시작하면 데이터를 기준으로 단측 테스트로 변경 한 다음 두 번째 규칙을 따르므로 알파를 5 %로보고하는 것은 정확하지 않습니다. 알파 값은 데이터의 내용뿐만 아니라 분석시 따르는 규칙에 따라 다릅니다. 데이터에만 의존하는 것이 아닌이 속성이있는 메트릭을 사용하는 이유를 묻는다면 더 복잡한 질문입니다.


2

2 점에 대해

귀무 가설을 기각하지 못한 양측 검정을 실행 한 후 단측 검정을 선택하는 것은 양측 검정의 유의 수준에 얼마나 "가까운"상관없이 적절하지 않습니다.

α

αα100%

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
α+α2>α
α/21α1α/21α/2

다음은 약간의 숫자 그림입니다.

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

p<α=0.05

α0.05α

α=0.05α=0.025

α=0.05


물론 연구원의 자유도 라는 것이 있습니다. 충분한 데이터가 있고 원하는 방식으로 자유롭게 테스트 할 수 있다면 모든 종류의 데이터에서 의미를 찾을 수 있습니다. 그렇기 때문에 데이터를보기 전에 수행 할 테스트를 결정해야합니다. 그 밖의 모든 것은 재현 할 수없는 테스트 결과로 이어집니다. YouTube에 가서 Andrew Gelmans의 이야기 "데이터에 대한 더 자세한 내용은 범죄"를 참조하십시오.


1
흠, 귀무 가설은 결과가 무작위라는 것이 아닙니다. 이것은 자신의 연구 결과가 고정 된 결과를 달성 한 것으로 보는 임상의와 과학자에게는 혼란 스러울 것입니다.
AdamO

1
" ... 로 일방적 인 테스트를 시작한 후에 "요점은 중요합니다. 가 너무 일반적인 이유 는 Rothamsted 에서 RA Fisher의 실제 경험 이 기대 값에서 개 이상의 표준 편차를 갖는 것이 일반적으로 추가 조사 할 가치 가 있었기 때문이며 , 이로부터 그는 자신의 경험에 따라 양측 테스트를 선택했습니다. , 다른 방법은 아닙니다. 따라서 단측 꼬리는α=0.050.0525%2.5%
Henry

1

언뜻 보면,이 진술들 중 어느 것도 양면 시험이 일방적 인 연구보다 '우수하다'고 주장하지 않습니다. 테스트되는 통계적 추론과 관련하여 테스트되는 연구 가설과 논리적으로 연결되어 있어야합니다.

예를 들어 :

... 다른 방향으로 영향을 미치지 않은 결과를 고려하십시오. 기존 약물에 비해 개선 된 것으로 생각되는 새로운 약물을 개발했다고 상상해보십시오. 개선 사항을 감지하는 능력을 최대화하기 위해 단측 테스트를 선택하십시오. 그렇게하면 새로운 약이 기존 약보다 효과가 적은지 테스트하지 않습니다.

우선 이것은 약물 연구입니다. 따라서 반대 방향으로 틀리면 통계의 틀을 넘어 사회적 중요성이 있습니다. 그래서 많은 사람들이 건강이 일반화하기에 가장 좋지 않다고 말했습니다.

위의 인용에서, 다른 약물이 이미 존재할 때 약물을 테스트하는 것 같습니다. 나에게 이것은 약물이 이미 효과적이라고 가정합니다. 그 진술은 그 후 두 가지 효과적인 약물의 비교에 관한 것입니다. 비교 결과를 개선하기 위해 모집단의 한쪽을 무시하고 있다면이 분포를 비교할 때? 그것은 편견 된 결론 일뿐만 아니라 비교는 더 이상 정당화하기에 유효한 것이 아닙니다 : 사과를 오렌지와 비교하고 있습니다.

마찬가지로 통계적 추론을 위해 결론에 아무런 영향을 미치지 않았지만 사회적 중요성이 매우 높다는 점에 대한 추정이 매우 많을 수 있습니다. 그것은 우리의 표본이 사람들의 삶, 즉 "재발 성"할 수없고 귀중한 것을 나타 내기 때문입니다.

대안 적으로,이 진술은 연구원이 "개선을 감지하는 능력을 극대화하고 싶다"는 인센티브를 가지고 있음을 암시합니다.

귀무 가설을 기각하지 못한 양측 검정을 실행 한 후 단측 검정을 선택하는 것은 양측 검정의 유의 수준에 얼마나 "가까운"상관없이 적절하지 않습니다.

여기서도 연구원이 양면에서 단면으로 자신의 테스트를 '전환'하고 있음을 의미합니다. 이것은 절대 적합하지 않습니다. 테스트하기 전에 연구 목적을 갖는 것이 필수적입니다. 항상 양면 접근 방식의 편리함을 기본으로 설정함으로써 연구원들은 편리하게 현상을 더 잘 이해하지 못합니다.

다음은이 주제에 관한 논문입니다. 실제로 양면 테스트가 과도하게 사용 된 사례를 만듭니다.

그것은 부족한 것에 대한 양면 테스트의 과도한 사용을 비난합니다.

연구 가설과 통계 가설 사이의 명확한 구분 및 논리적 연계

연구원들의 입장과 입장은 다음과 같습니다.

두 표현 모드의 차이를 알지 못하거나 연구 가설을 통계 가설로 변환해야하는 논리적 흐름을 알지 못할 수도 있습니다. 연구와 통계적 가설의 편의 중심의 혼합은 양측 테스트의 사용이 부적절한 상황에서도 양측 테스트의 과잉 사용의 원인이 될 수 있습니다.

통계 테스트 결과를 해석 할 때 정확한 통계를 파악해야합니다. 보수적 인 이름으로 부정확 한 것은 권장되지 않습니다. 그런 의미에서 저자들은 단지“0.05 유의 수준 (즉, p <0.05)에서 통계적으로 유의미한 것으로 밝혀졌습니다.”와 같은 테스트 결과 만보고하는 것만으로는 충분하지 않다고 생각합니다.

양측 테스트는 이론적으로 더 보수적이지만 방향성 연구 가설과 통계 가설 사이의 연결을 분리하여 p 값이 두 배로 늘어날 수 있습니다.

저자들은 반대 방향으로 중요한 결과를 찾는 것에 대한 주장 이 정당화 의 맥락이 아니라 발견 의 맥락에서만 의미가 있음을 보여 주었다 . 연구 가설과 그 기본 이론을 테스트하는 경우, 연구자들은 발견의 맥락과 정당화의 맥락을 동시에 다루어서는 안됩니다.

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

대체 가설에 대한 귀무 가설 에 대해 유의성 검정이 수행되는 경우가 종종 있습니다. 이것은 한쪽 꼬리와 양쪽 꼬리가 차이를 만들 때입니다.


  • p- 값의 경우이 (양면 또는 양면)는 중요하지 않습니다! 요점은 귀무 가설이 참인 시간 의 일부 만 발생하는 기준을 선택한다는 것 입니다. 이것은 양쪽 꼬리의 두 개의 작은 조각 또는 하나의 꼬리의 큰 조각 또는 다른 것입니다.α

    I 형 오류율은 한면 또는 양면 테스트에서 다르지 않습니다.

  • 반면에 권력은 중요 합니다.

    대립 가설이 비대칭 인 경우이 꼬리 / 끝에서만 귀무 가설을 기각하도록 기준을 집중하고 싶을 것입니다. 따라서 대립 가설이 참이면 귀무 가설을 기각 할 가능성이 줄어 듭니다.

    대립 가설이 대칭 (한쪽에 더 많거나 적은 힘을 가하지 않아도 됨)과 양쪽의 처짐 / 효과가 동일하게 예상되는 경우 (또는 알려지지 않은 / 알지 못하는 경우)를 사용하는 것이 더 강력합니다. 양면 테스트 (테스트하지 않는 테일에 대해 50 %의 전력을 잃지 않고 많은 유형 II 오류가 발생하는 위치).

    유형 II 오류율은 일방 및 양측 테스트에서 서로 다른 가설에 따라 다릅니다.

우리가 효과가 한쪽 또는 양쪽에 떨어질지 여부에 대한 선입견을 시작하거나 테스트를 사용하고자 할 때 (예 : 귀무 가설)을 사용하여 효과와 같은 것을 '확인'하거나 더 가능성이 높습니다.


0

그래서 하나 더 답변 시도 :

나는 하나를 꼬리 걸릴 여부 나에 완전히 의존 양측 추측 대체 가설.

t- 검정에서 다음 평균 검정의 예를 고려하십시오.

H0:μ=0

Ha:μ0

매우 음의 표본 평균 또는 매우 양의 표본 평균을 관찰하면 가설이 사실이 아닐 수 있습니다.

반면에 표본 평균이 음수이든 양수이든 가까우면 가설을 기꺼이 받아 들일 것 입니다. 이제 표본 평균이 떨어지면 귀무 가설을 기각하지 않는 구간을 선택해야합니다. 분명히 당신은 과 음의 변이 모두있는 간격을 선택할 것 입니다. 따라서 양면 테스트를 선택하십시오.0 0

그러나 을 테스트하고 싶지 않고 을 테스트하려면 어떻게해야합니까 ? 이제 직관적으로 우리가하고 싶은 것은 표본 평균 값이 매우 음수이면 null을 거부 할 수 있다는 것입니다. 따라서 표본 평균의 음수 값에 대해서만 null을 거부하려고합니다.μ=0μ0

하지만 기다려! 그것이 귀무 가설이면 귀무 분포를 어떻게 설정합니까? 표본 평균의 귀무 분포는 모집단 모수 (여기서 ) 의 일부 가정 된 값으로 알려져 있습니다 . 그러나 현재 null에서는 많은 값을 취할 수 있습니다.0

무한 귀무 가설을 수행 할 수 있다고 가정 해 봅시다. 각각 양의 값인 를 가정합니다 . 그러나 이것을 생각해보십시오 : 의 첫 번째 가설에서 매우 음의 표본 평균을 준수하는 것에 대해서만 null을 거부하면 대한 모든 다음 가설 도이를 거부합니다. 그것들에 대해 표본 평균은 모집단 모수에서 훨씬 더 멀기 때문입니다. 따라서 기본적으로 우리가해야 할 일은 단지 하나의 가설을 수행 하지만 꼬리는 한 가지 입니다.μH0:μ=0H0:μ>0

따라서 솔루션은 다음과 같습니다.

H0:μ=0

Ha:μ<0

가장 좋은 예는 정상 성을위한 Dickey-Fuller 테스트입니다.

도움이 되었기를 바랍니다. (다이어그램을 포함하고 싶지만 모바일에서 응답하고 싶습니다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.