결과를 "거의"또는 "약간"중요하다고 말하는 것이 잘못입니까?


13

비슷한 질문에 대한 일반적인 합의 : 결과를 "매우 중요"하다고 말하는 것이 잘못 되었습니까? "매우 중요"는 비 특정 적이지만 p- 값이 사전 설정된 유의성 임계 값보다 훨씬 낮은 연관의 강도를 설명하는 유효한 방법입니다. 그러나 임계 값 보다 약간 높은 p- 값을 설명하는 것은 어떻습니까? 나는 몇몇 논문이 "약간 중요하다", "거의 중요하다", "유의 한 접근"등과 같은 용어를 사용하는 것을 보았다. 나는이 용어들이 약간 소망스럽고, 어떤 경우에는 부정적인 결과를 가진 연구에서 의미있는 결과를 도출하기위한 경계선을 불분명 한 방법으로 생각한다. 이 용어가 p- 값 컷오프를 "그냥 놓친"결과를 설명하는 데 허용됩니까?


3
나는 "협회의 힘"을 설명 할 자격이있는 "의의"를 제안한 사람은 없다고 생각합니다. 후자는 효과 크기의 측정과 비슷합니다. 어쨌든 전체 목록 은 여기 를 참조 하십시오 .
Scortchi-Monica Monica 복원

1
@Scortchi-내 이해에서, 매우 작은 p- 값이 매우 중요하여 문제의 변수와 목표 사이의 강한 연관성을 의미합니다. 이는 큰 효과 크기, 많은 양의 데이터 또는 둘 다의 결과입니다. p- 값이 크면 변수와 목표 간의 연관성을 뒷받침하는 증거가 약합니다. 또한 링크에서 해당 목록을 좋아하십시오.
Nuclear Wang

9
작은 효과 크기에 대해 매우 작은 p- 값을 얻는 것을 "강한 연관"이라고하는 경우는 거의 없습니다. 감지 가능한 연결 일뿐 입니다.
whuber

2
나는 사람들이 학술 논문이 아니라 업계 에서이 문구를 많이 사용하는 것을 보았습니다.
Aksakal

1
아마도 당신의 불편 함은 p- 값 (또는 샘플에서 파생 된 다른 숫자)이 무언가의 날카로운 척도라고 믿는 것에서 비롯됩니다.
에릭 타워

답변:


14

"의의"가 학위를 인정하도록하려면 충분히 공정한 ( "약간 유의 한", "정의 적으로 유의 한"), "거의 유의미한"과 같은 임계 값의 아이디어에 여전히 얽매여 있다는 문구를 피하십시오. 필사적으로 표시하고 싶지 않은 경우 , "중요한 접근"또는 "중요한 의미"( 블로그 가능성 있는 "아직 중요하지 않음" 에서 내가 가장 좋아하는 것 ).


9
링크의 경우 (+1). 그러나 나는 시적 창의성의 하이라이트가 "의미의 한계에 시달리고 있다 "(p = 0.06) 고 생각한다 .
Alecos Papadopoulos

1
@AlecosPapadopoulos : 당신은 맞습니다. "통상적 인 수준의 중요성으로 갈등"& "통계적 중요성에 더 가까이 다가가는 것"은 훌륭한 언급이 필요합니다. "Quasi-significant"는 아마도 다른 범주의 승자 일 것입니다.
Scortchi-Monica Monica 복원

4
사실 처음 두 사실이 영화의 정신 영화 "통계 지골"(다른 사람을 것에서, 가장 먼저 꼬시기존의 레벨 ,?) 우리는 무시 무시한 독수리를 참조하십시오 "꼬리에 죽어"영화에서 두 번째 동안 (p-value) 죽어가는 영웅에게 호버링 (통계적 유의성).
Alecos Papadopoulos

1
개인적으로 저는 구절에서 '유의 한'이라는 단어를 버리고 p = 0.06 'quite funny'이라고 부릅니다. 6 시그마 코스 내에서 처음으로 p- 값을 만났을 때의 옳고 그름, 강사는 0.05 <= 0.1에 대해 올바른 레이블은 '더 많은 데이터가 필요합니다'(추가 데이터 포인트를 얻기 어려운 산업 환경에 근거 함)를 제안했습니다. '빅 데이터'시나리오와 완전히 다른
Robert de Graaf

6

내 관점에서 볼 때이 문제는 실제로 유의성 테스트를 수행한다는 것이 의미하는 것으로 요약됩니다. 귀무 가설을 기각할지 또는 기각하지 않는지를 결정하기위한 수단으로 유의성 검정을 고안했습니다. 피셔 자신은 (임의의) 결정을 내리기 위해 악명 높은 0.05 규칙을 도입했습니다.

기본적으로 유의성 검정의 논리는 사용자가 데이터를 수집하기 전에 귀무 가설 (일반적으로 0.05)을 기각하기 위해 알파 수준을 지정해야한다는 것입니다. 입니다. 유의성 검정을 완료 한 후, p 값이 알파 수준보다 작 으면 사용자가 널을 거부하거나 그렇지 않으면 널을 거부합니다.

효과가 매우 중요하다고 선언 할 수없는 이유는 (예 : 0.001 수준에서) 찾기 위해 설정 한 것보다 더 강력한 증거를 찾을 수 없기 때문입니다. 따라서 검정 전에 알파 수준을 0.05로 설정하면 p 값의 크기에 관계없이 0.05 수준에서만 증거를 찾을 수 있습니다. 같은 방식으로, "약간 유의 한"또는 "유의 한 접근"효과에 대한 언급은 0.05의 임의의 기준을 선택했기 때문에 의미가 없습니다. 유의성 검정의 논리를 문자 그대로 해석하면 0.05보다 큰 것은 중요하지 않습니다.

나는 "의의에 접근하는 것"과 같은 용어가 출판의 전망을 향상시키기 위해 종종 사용된다는 데 동의한다. 그러나 일부 과학 분야의 현재 출판 문화는 여전히 "거룩한 성배"0.05에 크게 의존하기 때문에 저자가 그 사실에 대해 책임을 질 수 있다고 생각하지 않습니다.

이러한 문제 중 일부는 다음에서 논의됩니다.

Gigerenzer, G. (2004). 무의미한 통계. 사회 경제학 저널, 33 (5), 587-606.

Royall, R. (1997). 통계적 증거 : 가능성 패러다임 (Vol. 71). CRC 프레스.


1
Fisher의 유의성 테스트에 알파 수준을 추가하면 Fisherian 과학 철학과 Neyman / Pearson의 접근 방식을 혼합 한 것입니다.
RBirkelbach

5

이 미끄러운 슬로프는 귀무 가설 유의성 검정 (NHST)을 위해 Fisher vs Neyman / Pearson 프레임 워크를 불러옵니다. 한편으로, 결과가 귀무 가설 (예 : 효과 크기)에 얼마나 미치지 않을지에 대한 정량적 평가를 원합니다. 반면, 하루가 끝나면 결과가 우연에 의한 것인지 아닌지에 대한 개별적인 결정을 원합니다. 우리가 끝낸 것은 매우 만족스럽지 않은 일종의 하이브리드 접근법입니다.

대부분의 분야에서, 유의성에 대한 기존의 p는 0.05로 설정되어 있지만 이것이 왜 그렇게되어야하는지에 대한 근거는 없습니다. 논문을 검토 할 때 방법론이 건전하고 모든 분석, 그림 등을 포함한 전체 그림이 일관되고 믿을 수있는 이야기를 전한다면 0.06 중요도 또는 0.07이라고 부르는 저자에게는 전혀 문제가 없습니다. 문제가 발생하는 곳은 저자가 효과 크기가 작은 사소한 데이터로 스토리를 만들려고 할 때입니다. 반대로, 시험이 기존의 p <0.05 유의성에 도달하더라도 실질적으로 의미가있는 시험을 '믿지'않을 수도 있습니다. 내 동료가 한 번 말했다 : "통계량은 이미 수치에 분명한 것을 백업해야합니다."

모든 것이 말했지만, Vasilev가 맞다고 생각합니다. 출판 시스템이 망가 졌다면, p 값을 포함해야하므로 '마지막으로'(좋아하는)와 같은 형용사를 요구하더라도 '중요'라는 단어를 심각하게 받아 들여야합니다. 피어 리뷰에서 항상 싸울 수 있지만 먼저 도착해야합니다.


5

두 p- 값 자체의 차이는 일반적으로 중요하지 않습니다. 따라서 p- 값이 0.05, 0.049, 0.051인지 여부는 중요하지 않습니다.

연관 강도의 척도로서 p- 값과 관련하여 : p- 값은 직접적인 연관 강도의 척도가 아니다. p- 값은 모수가 0으로 가정되는 경우를 고려하여 관측 한 데이터만큼 극단적이거나 더 극단적 인 데이터를 찾을 확률입니다 (널 가설에 관심이있는 경우-Nick Cox의 설명 참조). 그러나 이것은 종종 연구원이 관심있는 양이 아닙니다. 많은 연구자들은 "매개 변수가 선택된 일부 차단 값보다 클 확률은 얼마입니까?"와 같은 질문에 대답하는 데 관심이 있습니다. 이것이 관심이있는 경우 모델에 추가 사전 정보를 통합해야합니다.


6
나는 이것의 정신에 동의하지만, 작은 글씨는 항상 완전한 경계가 필요합니다. "매개 변수가 0 인 것으로 가정": 종종, 항상 그런 것은 아닙니다. 다른 가설에 대해서도 P- 값을 계산할 수 있습니다. 또한 "가정"에 대해서는 "가설"을 읽으십시오.
Nick Cox

당신은 완전히 옳습니다-나는 대답을 편집 할 것입니다!
RBirkelbach

3

p<αp>α(물론 힘이 아님). 이러한 "연속 주의자"의 경우, "거의 중요"는 적당한 p- 값으로 결과를 설명하는 현명한 방법입니다. 사람들이이 두 가지 철학을 혼합하거나 더 나쁜 것은 둘 다 존재한다는 것을 알지 못할 때 문제가 발생합니다. (그런데 사람들은 종종이지도를 네이 먼 / 피어슨과 피셔로 깨끗하게 가정하지만, 그렇지 않습니다. 이 주제에 대한 블로그 게시물에서 이에 대한 자세한 내용은https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/


1

나는 거의 통계적으로 중요한 것이 기술적 인 관점에서 정확하지 않다고 생각하는 경향이 있습니다. 허용 수준을 설정하면 유의성 통계 검정이 설정됩니다. 표본 분포 분포에 대한 아이디어로 돌아 가야합니다. 공차 수준이 0.05이고 p- 값이 0.053 인 경우 사용 된 표본이 해당 통계량을 산출했을 가능성이 있습니다. 동일한 결과를 얻지 못할 수있는 다른 표본을 얻을 수 있습니다. 발생 확률은 표본 통계량이 아니라 공차 수준을 기반으로한다고 생각합니다. 모집단 모수에 대해 샘플을 테스트하고 있으며 샘플에는 자체 샘플링 분포가 있습니다. 제 생각에는 통계적으로 중요한 것이거나 그렇지 않은 것입니다.


0

[0,1]H0p>α

H1

예를 들어 Wikipedia를 참조하십시오 .


나는 당신을 따르지 않습니다. 예, 연속 분포에서 정확히 0.051의 결과를 얻을 가능성은 정확히 1의 결과를 얻을 가능성과 같습니다-0입니다. 그러나 가설 검증은 적어도 관측 된 값 만큼 극단적 인 값을 볼 가능성을 조사합니다 . p- 값은 최소한 1만큼이나 극단이지만, p- 값은 0.051만큼 극단 일 가능성이 훨씬 낮습니다. 그 차이가 "의미없는"이유는 무엇입니까?
Nuclear Wang

널 (null)에서는 간격 [0.999,1]에서 p- 값을 관찰하는 것과 같이 간격 [0.05,0.051]에서 p- 값을 관찰 할 수 있습니다. 임계 값에 더 가까운 p- 값을 관찰하는 것은 거부 영역 외부의 다른 p- 값을 관찰 할 때 0에 대한 더 이상의 증거는 아닙니다.
Snaut

일부 호출 ap 값이 0.05이면 다른 값은 0.01 또는 0.1을 임계 값으로 사용합니다. 따라서 동일한 분석을 수행하고 p- 값이 0.03 인 3 명의 연구자 중 2 명은 유의미한 것으로 간주 할 수 있습니다. 모두 0.91의 p- 값을 찾으면 아무도 그것을 중요하다고 부르지 않습니다. 임계 값에 가까운 p- 값은 더 많은 개인이 널을 거부 할 충분한 증거가있는 것으로 간주 함을 의미합니다. 왜 p = 0.051과 p = 1이 H1에 대한 지원 측면에서 구분할 수 없는지 모르겠습니다. 어떤 사람들은 p = 0.051로 H1을 정당하게 지원할 것입니다. 아무도 p = 1로 그렇게하지 않을 것입니다.
Nuclear Wang
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.