중요하지 않은 결과를 "추세"로 해석


16

최근에 두 명의 다른 동료가 나에게 잘못된 것처럼 보이는 조건 간의 차이에 대해 일종의 논쟁을 해왔습니다. 이 두 동료 모두 통계를 사용하지만 통계학자는 아닙니다. 나는 통계의 초보자입니다.

두 경우 모두 실험에서 두 조건간에 큰 차이가 없으므로 조작과 관련하여 이러한 그룹에 대한 일반적인 주장을하는 것은 잘못이라고 주장했습니다. "일반 주장"은 "그룹 A가 그룹 B보다 X를 더 자주 사용했습니다"와 같은 것을 의미합니다.

동료들은 "중요한 차이는 없지만 추세는 여전히 존재합니다."와 "중요한 차이는 없지만 여전히 차이가 있습니다." 나에게,이 두 가지 말은 마치 말처럼 들린다. 즉, 그들은 "차이"의 의미를 다음과 같이 바꾸었다. -그룹 간 측정 차이가 없습니다. "

동료의 답변이 정확합니까? 그들이 나를 앞질렀 기 때문에 나는 그들과 함께 그것을 잡지 않았다.


답변:


26

이것은 좋은 질문입니다. 대답은 상황에 따라 많이 다릅니다.

일반적으로 나는 당신이 옳다고 말할 것입니다 : "그룹 A보다 그룹 A보다 X를 더 자주 사용하는 그룹 A"와 같은 자격이없는 일반적인 주장을하는 것은 오해의 소지가 있습니다. 다음과 같은 것을 말하는 것이 좋습니다

실험 그룹 A에서 그룹 B보다 X를 더 자주 사용했지만 일반 모집단에서 이것이 어떻게 수행되는지는 확실하지 않습니다.

또는

A 군이 본 실험에서 그룹 B보다 자주 X 13 %를 사용하지만, 일반인의 차이의 추정치는 명확하지 다음 그럴듯한 값 X를 5 %를 사용하는 범위에서 적은 X 21 %로하여 (A)에 그룹 B보다 자주 그룹 B보다 더 자주

또는

그룹 A는 그룹 B보다 X 13 % 더 자주 사용되었지만 차이는 통계적으로 유의하지 않았습니다 (95 % CI -5 % ~ 21 %; p = 0.75).

반면, 동료들은 이 특정 실험 에서 그룹 A가 그룹 B보다 X를 더 자주 사용 하는 것이 옳 습니다. 그러나 사람들은 특정 실험에 참여하는 사람에 대해 거의 신경 쓰지 않습니다. 그들은 결과가 어떻게 더 많은 인구 집단으로 일반화 될지 알고 싶어합니다.이 경우 일반적인 대답은 무작위로 선택된 그룹 A가 무작위로 선택된 그룹 B보다 X를 더 자주 또는 덜 사용할 것인지 확신 할 수 없다는 것입니다.

치료 A 또는 치료 B를 사용하여 X의 사용량을 늘리거나 다른 정보가 없거나 비용 등의 차이가 없는지에 대해 오늘 선택해야한다면 A를 선택하는 것이 가장 좋습니다. 그러나 올바른 선택을하고 싶을 때 편안함을 원한다면 더 많은 정보가 필요합니다.

"X 사용에있어 그룹 A와 그룹 B 사이에는 차이가 없습니다"또는 "그룹 A와 그룹 B가 X를 같은 양으로 사용합니다"라고 말해서 는 안됩니다 . 이는 실험 참가자 (A가 X를 13 % 이상 사용한 경우) 나 일반 모집단 모두에 해당되지 않습니다. 대부분의 실제 상황에서, 당신은 정말이 없어야합니다 알고 일부 (아무리 약간)을 대를 B의 효과를; 당신은 그것이 어떤 방향으로 가고 있는지 모릅니다.


5
아름다운 반응, 벤! 첫 번째 예문의 요지를 반영하기 위해 두 번째 예문을 명확하게 수정할 수 있는지 궁금합니다. "그룹 A가 실험에서 그룹 B보다 X 13 % 더 자주 사용되었지만 일반적으로 그룹 간 X 사용률의 차이 인구는 명확하지 않았다 : 그 차이의 그럴듯한 범위 는 그룹 B보다 X를 5 % 적게 사용하는 A에서 그룹 B보다 X를 21 % 더 많이 사용하는 A로 바뀌었다. "
Isabella Ghement

3
덕분에, 부분적으로 통합 (밸런스 간결 / 명확성과 정확성하려고 ...)
벤 Bolker

8
+1 많은 사람들이 통계적 증거가 없으면 관측 된 차이가 개체수에서 일어나고있는 것과 반대 일 수 있다는 것을 깨닫지 못한다고 생각합니다!
Dave

@Dave : "통계적 증거"(통계적으로 유의미한 p- 값?)가 존재하더라도 "관찰 된 차이는 모집단에서 일어나는 것과 반대 일 수 있습니다"
boscovich

@boscovich 물론, 저는 통계를 할 때 절대적으로 이야기하고 있었지만, 통계가 중요하지 않은 p- 값 의미라고 생각합니다. 적어도 유의 한 p- 값으로 당신은 무언가를 알고 있음을 제안하기 위해 확립 된 증거의 임계 값에 도달했습니다. 그러나 방향을 잘못 식별하면 상당한 p- 값을 얻을 수 있습니다. 이 오류는 때때로 발생해야합니다.
Dave

3

어려운 질문입니다!

5% p

H0ABXY H0ppH0 사실이다 (즉, 추세 없음).

pH0H0pH0

p23%23%23%H0:=0.5% p

XβH0: β=0β0

β=0

4%

이 지나치게 설명이 도움이되기를 바랍니다. 요약은 당신이 절대적으로 옳다는 것입니다! 연구, 비즈니스 등을위한 보고서를 거의 증거로 뒷받침 할 수없는 사소한 주장으로 채워서는 안됩니다. 실제로 추세가 있다고 생각하지만 통계적 유의성에 도달하지 않았다면 더 많은 데이터로 실험을 반복하십시오!


1
지적 +1 어떤 의미 임계 값이 임의 (- 당신이 얻을 모두가 더 나은 확률이며 암시 적으로는 샘플의 결과에서 일반 인구에 대한 절대 주장을 추론 할 수 없습니다).
피터-복원 모니카

0

유의미한 효과는 예상치 못한 예외를 측정했음을 의미합니다 (효과가없는 귀무 가설이 사실이 아닐 경우). 결과적으로 높은 확률로 의심해야합니다 (이 확률은 p- 값과 같지 않고 이전의 신념에 따라 결정되지만).

실험의 품질에 따라 동일한 효과 크기를 측정 할 수 있지만 이상이 아닐 수 있습니다 (널 (NULL) 가설이 참일 경우 결과가 아닐 수 있습니다).

효과를 관찰 할 때 효과는 크지 않지만 실제로 효과 (효과)는 여전히있을 수 있지만 그다지 중요하지는 않습니다 (측정 값에 귀무 가설이 의심되거나 거부 될 가능성이 높은 것으로 표시되지 않음). 즉, 실험을 개선하고 더 많은 데이터를 수집하여 더 확실하게 확인해야합니다.

따라서 이분법 효과 대 효과 없음 대신 다음 네 가지 범주 로 이동해야합니다 .

네 가지 범주

두 가지 단면 t- 검정 절차 (TOST)를 설명하는 https://en.wikipedia.org/wiki/Equivalence_test의 이미지

당신은 카테고리 D에있는 것처럼 보입니다. 시험은 결정적이지 않습니다. 동료가 효과가 있다고 말하는 것이 잘못되었을 수 있습니다. 그러나 효과가 없다고 말하는 것은 똑같이 잘못입니다!


p

@David, 나는 p- 값이 더 정확하게 ' 널 귀무 가설이 참이라는 조건부 오류를 만들 확률 '(또는 그러한 극단적 인 결과를 볼 확률)에 대한 척도이며, 그렇지 않다는 것에 완전히 동의 합니다. '무가 설이 잘못되었다는 확률'을 직접적으로 표현하십시오. 그러나 p- 값이이 '공식적인'의미로 사용되도록 의도 된 것은 아니라고 생각합니다. p- 값은 귀무 가설에서 의심을 표현하는 데 사용되며 결과에 이상이 있음을 나타내며 변칙으로 인해 귀무를 의심해야 함을 나타냅니다 .
Sextus Empiricus

.... 귀하의 경우 (차 시음 아가씨와 마찬가지로) 희귀 한 사례를 제공하여 null 효과에 도전하기 위해 동전을 예측할 수 없다는 아이디어에 도전 할 때 실제로 null에 의심이 있어야합니다. 가설. 실제로 우리는 이것을 위해 적절한 p- 값을 설정해야 할 것입니다 (실제로 null에 도전 할 수도 있기 때문에). 나는 1 % 수준을 사용하지 않을 것입니다. 널 (null)을 의심 할 가능성이 높은 확률은 p- 값과 일대일로 동일하지 않아야합니다 (확률이 베이지안 개념이기 때문에).
Sextus Empiricus

나는이 오해를 없애기 위해 본문을 수정했다.
Sextus Empiricus

0

p-value와 "Trend"의 정의를 논쟁하는 것처럼 들립니다.

런 차트에 데이터를 플로팅하면 시간 경과에 따라 추세가 증가하거나 감소하는 플롯 포인트 런이 표시 될 수 있습니다.

그러나 통계를 할 때 p- 값은 중요하지 않다는 것을 나타냅니다.

p- 값이 의미를 거의 나타내지 않지만 일련의 데이터에서 추세 / 실행을 보는 것은 매우 작은 추세 여야합니다.

따라서, 만약 그렇다면, 나는 p- 값으로 되돌아 갈 것입니다. IE : 예, 데이터에 추세가 있습니다. 의 분석.

무의미한 경향은 연구에서 일종의 편견에 기인 할 수있는 것입니다. 아마도 매우 작은 것입니다.

내가 그룹의 관리자라면 시간과 돈을 낭비하지 않고 중요하지 않은 경향을 찾아 내고 더 중요한 것을 찾도록 지시 할 것입니다.


0

이 경우에 그들의 주장에 대한 정당성이 거의 없으며, 그들이 이미 가지고있는 결론에 도달하기 위해 통계를 남용하는 것 같습니다. 그러나 p-val 컷오프에 너무 엄격하지 않은 경우가 있습니다. 통계적 의미와 pval 컷오프를 사용하는 방법은 Fisher, Neyman 및 Pearson이 처음 통계 테스트의 기초를 마련한 이후로 논쟁의 여지가있는 논쟁입니다.

모델을 작성 중이고 포함 할 변수를 결정한다고 가정 해 봅시다. 잠재적 변수에 대한 예비 조사를 수행하기 위해 약간의 데이터를 수집합니다. 이제 비즈니스 팀이 실제로 관심을 갖는이 변수가 있지만 예비 조사에 따르면 변수가 통계적으로 유의하지 않다는 것이 밝혀졌습니다. 그러나 변수의 '방향'은 비즈니스 팀이 예상 한 것과 일치하며, 중요성의 임계 값을 충족 시키지는 않았지만 근접했습니다. 아마도 결과와 긍정적 인 상관 관계가있는 것으로 의심되었으며 베타 계수는 긍정적이지만 pval은 0.05 컷오프보다 약간 높았습니다.

이 경우 계속해서 포함시킬 수 있습니다. 그것은 일종의 비공식적 인 베이지안 통계입니다. 유용한 변수라는 강력한 사전 믿음이 있었고 초기 조사에서 그 방향으로 증거가 있었지만 (통계적으로 유의미한 증거는 아닙니다!) 모델에 보관하십시오. 더 많은 데이터가있을 경우 관심있는 결과와의 관계가 더 분명 할 것입니다.

또 다른 예는 새 모델을 작성하고 이전 모델에서 사용 된 변수를 살펴볼 수 있습니다. 한계 변수 (중요도에있는 변수)를 계속 포함하여 모델의 연속성을 유지할 수 있습니다. 모델링합니다.

기본적으로, 당신이하는 일에 따라 이러한 종류의 것들에 대해 점점 엄격 해야하는 이유가 있습니다.

다른 한편으로, 통계적 유의성이 실제적 의의를 암시 할 필요는 없다는 것을 명심해야합니다! 이 모든 것의 핵심은 샘플 크기라는 것을 기억하십시오. 충분한 데이터를 수집하면 추정치의 표준 오차가 0으로 줄어 듭니다.이 차이가 실제 세계에 해당되지 않더라도 '통계적으로 유의미한'아무리 작더라도 상관없이 모든 종류의 차이가 발생합니다. 예를 들어, 특정 코인이 헤드에 상륙 할 확률이 .500000000000001이라고 가정합니다. 이것은 이론적으로 동전이 공평하지 않다는 결론을내는 실험을 설계 할 수 있다는 것을 의미하지만, 모든 의도와 목적을 위해 동전을 공정 동전으로 취급 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.