일반적인 통계적 죄는 무엇입니까?


227

저는 심리학을 전공하는 대학원생이며 통계에 대한 점점 더 독립적 인 연구를 수행함에 따라 공식 교육이 부족하다는 사실에 점점 더 놀랐습니다. 개인 및 중고 경험 모두 학부 및 대학원 교육의 통계적 엄격함이 심리학 내에서 어느 곳에 나 존재 함을 시사합니다. 따라서 저는 저와 같은 독립적 인 학습자가 "통계 학적 죄"목록을 작성하는 것이 도움이 될 것이라고 생각했습니다. 통계적 관행을 학생들에게 표준 실습으로 등급을 매기는 통계적 실습을 도표화하여 실제로는 더 우수하거나 더 강력하거나 유연합니다. 강력 함 등) 현대적인 방법이거나 솔직히 유효하지 않은 것으로 보입니다. 다른 분야에서도 비슷한 상황이 발생할 수 있음을 예상하여 여러 분야의 통계적 죄 목록을 수집 할 수있는 커뮤니티 위키를 제안합니다.


5
나는 "죄"가 염증성 일 가능성이 있으며 통계 분석의 일부 측면이 흑백이 아니라는 것을 알고 있습니다. 저의 의도는 일반적으로 배운 연습이 상당히 부적절한 경우를 요구하는 것입니다.
마이크 로렌스

5
원하는 경우 생물학 / 생명 과학 학생들을 혼합에 추가 할 수도 있습니다.;)
nico

1
어쩌면 생명 과학을하고 입양 통계 죄 ... 그렇지 않으면 더 구체적인 뭔가 ...?

1
@ whuber 좋은 답변이 있었으므로 둘 다 병합했습니다.

1
@Amanda 안녕하세요, 대화 내용을 여기에 표시해 주시겠습니까? 누구도 릭 롤링 가능성을 좋아하지 않습니다.
naught101

답변:



115

p- 값에 대한 대부분의 해석은 죄가 있습니다! p- 값의 일반적인 사용법에는 결함이 있습니다. 내 의견으로는 가설 검정과 유의성 시험에 대한 표준 접근법에 의문이 제기된다는 사실.

Haller와 Krause는 통계 강사가 학생들이 p- 값을 잘못 해석 할 가능성이 거의 있음을 발견했습니다. Steve Goodman은 p- 값의 기존 (오용) 사용을 우위에두고 버리는 것에 대해 좋은 사례를 제시합니다. Hubbard 논문도 살펴볼 가치가 있습니다.

할러와 크라우스. 의미의 오해 : 학생들이 교사와 공유하는 문제 . 심리학 연구 방법 (2002) vol. 7 (1) pp. 1-20 ( PDF )

허바드와 바 야리. 고전 통계 테스트에서 증거 측정 (p 's)과 오류 (α)에 대한 혼동 . 미국 통계 학자 (2003) vol. 57 (3)

좋은 사람. 증거 기반의 의료 통계를 향하여. 1 : P 값 오류. 앤 인턴 메드 (1999) vol. 130 (12) 995-1004 ( PDF )

참조 :

Wagenmakers, EJ. p 값의 광범위한 문제에 대한 실질적인 해결책. 심리학 적 게시판 및 검토, 14 (5), 779-804.

p- 값의 명목상 "올바른"해석조차도 실험자가 선택한 선택으로 인해 잘못 작성된 명확한 절단 사례의 경우.

업데이트 (2016) : 2016 년 미국 통계 협회 (American Statistical Association)에서 p- 값에 대한 설명을 발표했습니다 ( 여기 참조) . 이것은 약 1 년 전 심리학 저널이 발행 한 "p- 값 금지"에 대한 반응 이었습니다.


2
@Michael (+1) 초록과 ungated PDF에 대한 링크를 추가했습니다. 당신이 상관하지 않기를 바랍니다.
chl

7
+1이지만 중요한 의견을 남기고 싶습니다. 오프닝 라인에 대해서, 사람은 단지뿐만 아니라 말할 수있는 "거의 모든"의 해석 (측정 이론적 의미에서) 어느 하나가 정확하기 때문에, 잘 정의 된 개념은 올바르지 않습니다. 둘째, "일반적인 사용법"과 "표준 접근법"이라고 할 때 무엇을 언급합니까? 이 모호한 언급은 짚맨처럼 들립니다. 그들은 통계 교육에 관한 문헌에서 찾을 수있는 것과 일치하지 않습니다.
whuber

4
@Whuber Goodman 논문을 살펴보십시오. 그것은 약리학 분야에서의 나의 경험과 아주 잘 어울립니다. 방법은 "P <0.05가 통계적으로 유의미한 결과"라고 말하고 결과는 p <0.05의 경우 +, p <0.01의 경우 ++, p <0.0001의 경우 +++로 표시됩니다. 이 진술은 a la Neyman과 Pearson의 오류율에 대한 통제를 암시하지만, p의 값이 귀무 가설에 대한 증거 강도의 지표 인 다른 수준의 p를 사용하면 Fisher의 접근 방식을 제안합니다. Goodman이 지적한 것처럼 오류율을 동시에 제어하고 증거의 강도를 평가할 수는 없습니다.
Michael Lew

8
@Michael 이러한 종류의보고에 대한 대안적이고 더 관대 한 해석이 있습니다. 예를 들어, 저자는 독자가 자신의 중요성 임계 값을 적용하여 p- 값에 플래그를 지정하여 도움을 줄 수 있음을 알고있을 수 있습니다. 또는 저자는 가능한 여러 비교 문제를 인식하고 Bonferroni와 유사한 조정에서 다른 수준을 사용할 수 있습니다. 아마도 p- 값의 오용에 대한 책임의 일부는 저자가 아닌 독자의 발 앞에 놓여 야 할 것입니다.
whuber

4
@Whuber 나는 전적으로 동의하지만, 당신이 제안한 것은 소수의 사례 ( '완전히'의 제한된 버전)에서 사실이라는 것만 동의합니다. p 값이 정확한 값이 아닌 1, 2 또는 3 개의 별 수준으로보고되도록 지정하는 저널이 있으므로 해당 저널은 결과에 대한 일부 책임을 공유합니다. 그러나 잘못 고려 된 요구 사항과 p 값의 명백한 순진한 사용은 내 선반에있는 몇 가지 소개 통계 텍스트에서 오류율과 증거의 차이에 대한 명확한 설명이 없기 때문에 발생할 수 있습니다.
Michael Lew

73

예측 모델에서 작업 할 때 가장 위험한 트랩은 테스트 데이터 세트를 "최종"성능 평가 전용으로 예약하지 않는 것입니다.

매개 변수를 조정할 때 테스트 데이터를 사용하고 사전을 선택하고 학습 알고리즘 중지 기준을 선택할 때 테스트 데이터를 사용할 수있는 기회가 있다면 모델의 예측 정확도를 과대 평가하는 것은 정말 쉽습니다.

이 문제를 피하려면 새 데이터 세트 작업을 시작하기 전에 데이터를 다음과 같이 분할해야합니다.

  • 개발 세트
  • 평가 세트

그런 다음 개발 세트를 "훈련 개발 세트"및 "테스트 개발 세트"로 분할합니다. 여기서 훈련 개발 세트를 사용하여 다양한 매개 변수로 다양한 모델을 훈련하고 테스트 개발 세트의 성능에 따라 최고를 선택합니다. 교차 검증을 통해 그리드 검색을 수행 할 수 있지만 개발 세트에서만 가능합니다. 모델 선택이 100 % 완료되지 않은 동안에는 평가 세트를 사용하지 마십시오.

모델 선택 및 매개 변수에 확신이 있으면 평가 세트에서 10 배 교차 검증을 수행하여 선택한 모델의 "실제"예측 정확도에 대한 아이디어를 얻습니다.

또한 데이터가 일시적인 경우 타임 코드에서 개발 / 평가 분할을 선택하는 것이 가장 좋습니다. "특히 미래에 대해서는 예측하기가 어렵습니다."


5
나는 이것에 원칙적으로 동의하지만 작은 데이터 세트의 경우 (나는 종종 20-40 건만 있음) 별도의 평가 세트를 사용하는 것은 실용적이지 않습니다. 중첩 된 교차 검증은이 문제를 해결할 수 있지만 소규모 데이터 세트에 대한 비관적 추정으로 이어질 수 있습니다.
BGreene

11
일반적으로 데이터 분할의 신뢰성을 높이려면 막대한 데이터 집합이 필요합니다. 이것이 부트 스트랩을 사용한 엄격한 내부 검증이 매우 매력적인 이유입니다.
Frank Harrell

특히 개발 세트가 과거 데이터이고 평가 세트가 미래 데이터 인 경우. 모든 모델 튜닝 후 전체 개발 세트에서 고정 매개 변수를 사용하여 최종 모델을 학습하고 전체 평가 세트를 예측하십시오. 실제 시나리오에서는 미래 데이터를 통해 설명하는 방식으로 교차 유효성 검사를 수행 할 수 없으므로 모든 관련 과거 데이터를 사용합니다.
David Ernst

64

통계 (가설 테스트) 대신 데이터 마이닝 (가설 발견)을 수행 한 경우 p- 값보고


2
당신은 (또는 누군가) 정교하게 할 수 있습니까?
antoine-sac


다중 가설 검정을 위해 수정 된 p- 값은 어떻습니까 (Bonferroni 방법의 풍미 또는 고급 교정)? 데이터 마이닝의 맥락에서도 괜찮다고 생각하는 경향이 있습니까?
antoine-sac

나는 일반적인 아이디어를 좋아하지만 통계가 전자의 하위 집합 일 때 가설 검정과 통계를 동일시하는 것은 왜곡이다.
rolando2

46

가설 테스트 대 (예 : 가우스 설정)H 1 : μ 0H0:μ=0H1:μ0

모델에서 임을 정당화하기 위해 (예 : " 은 거부되지 않음"및 " 은 true" 혼합 )H 0 H 0μ=0H0H0

이러한 유형의 (매우 나쁜) 추론의 좋은 예는 동일한 분산을 가정하여 평균이 같은지 테스트하기 전에 두 가우시안의 분산이 같은지 여부를 테스트하는 경우입니다.

정규성을 정당화하기 위해 정규성을 테스트 할 때 (비정규 대 비교) 다른 예가 발생합니다. 모든 통계학자는 그 일을 인생이라고 했습니까? 그것은 baaad입니다 :) (그리고 사람들이 비 Gaussianity에 견고성을 확인하도록 강요해야합니다)


6
동일한 논리 ( "H1 부재의 증거"와 "H1에 유리한 증거 부재"를 취함)는 본질적으로 모든 적합도 검정의 기초가됩니다. 사람들이 "시험이 중요하지 않다고 말하면 요인 X의 영향이 없거나 변수 Y의 영향이 없다"고 결론을 내릴 때 종종 추론이 자랍니다. 나는 시험의 힘에 대한 추론을 동반한다면 죄가 덜 심각하다고 생각한다 (예를 들어, 특정 관련 효과 크기가 주어지면 특정 크기에 도달하기 위해 샘플 크기의 사전 예측).
caracal

당신이 전원에 대한 concideration을하지 않으면, 나는 claming 말을 이 거부되지 않을 때 claming 동안 아주 아주 나쁜 사실 H (1) 동안 참 H 0 거부가 조금 잘못 :)입니다. H0H1H0
로빈 지라드

큰!! 그렇습니다, 이것은 나를 미치게합니다 ..
jpillow

3
나는 통계적으로 글을 읽고 글을 쓰려고 노력합니다. 대안은 무엇입니까? 이전 null이 이되도록 모델을 변경하십시오 . 내가 생각할 수있는 유일한 다른 옵션은 null을 거부하지 못하면 실제로 null을 확인하기에 충분히 가깝다 는 연구의 힘 입니다. 예를 들어, 세포에 시약을 추가해도 세포의 2 % 이상이 제거되지 않도록하려면, 위양성 비율로 만족하십시오. H1
DocBuckets

@DocBuckets 동등 테스트는 두 가지 일방적 인 테스트로 전력 기반 접근법보다 더 엄격합니다. 그러나 실제 동등성에 대해 말할 수있는 최소 관련 효과 크기를 아래에 설정해야합니다.
David Ernst

46

나를 괴롭히는 몇 가지 실수 :

  1. 편견 추정기가 편향 추정기보다 항상 좋다고 가정합니다.

  2. 높은 가 좋은 모델을 의미 한다고 가정하면 , 낮은 R 2 는 나쁜 모델을 의미합니다.R2R2

  3. 상관을 잘못 해석 / 적용하는 중입니다.

  4. 표준 오류없는보고 지점 추정치

  5. 보다 강력하고 성능이 우수한 비 / 반모 수적 방법을 사용할 수있는 경우 일종의 다변량 정규성 (예 : 선형 판별 분석)을 가정하는 방법을 사용합니다.

  6. p- 값을 어떤 관계 의 증거가 얼마나 많은지 측정하는 것이 아니라 예측 변수와 반응 사이의 강도 측정으로 사용합니다 .


5
이것들을 별도의 옵션으로 나누시겠습니까?
russellpierce

41

연속 예측 변수의 이분법 화는 분석을 "단순화"하거나 연속 예측 변수의 효과에서 비선형 성의 "문제"를 해결합니다.


18
나는 얻은 결과가 잘못되지 않았기 때문에 이것이 실제로 "죄인"이라고 생각하지 않습니다. 그러나 유용한 정보를 많이 버리지 않으므로 좋은 습관이 아닙니다.
Rob Hyndman

2
이러한 선을 따라 극단적 인 그룹 디자인을 사용하면 효과 크기를 과대 평가하는 반면 평균 또는 중간 분할을 사용하면 효과 크기를 과소 평가합니다.
russellpierce

2
둘 이상의 별개의 인구가 있다면 이것은 죄가 아닙니다. 분리 가능한 클래스 또는 하위 인구가 있다고 가정하면 이산화하는 것이 합리적입니다. 아주 사소한 예 : 사이트 / 위치 / 도시 / 국가 또는 위도 / 경도에 지표를 사용 하시겠습니까?
반복자

3
+1이고 이분법 컷오프를 선택하기 시작하면 심각한 죄가되어 어떤 종류의 차이를 최적화하여 테스트합니다.
Erik

5
@Iterator 당신은 (두 개 이상의 범주) 집계하는 진짜 이유에서 얻을 시작 하나 때문에 선험적으로 그 차이가 의미하는 범주로 구획되어 믿을 수있는 이론적 인 이유를 . 예를 들어, 우리는 1 조 개 정도의 세포 가 개인을 구성한다고 가정 하거나 지구상의 연속 24 시간 기간을 의미있는 단위로 해석 한다고 가정하여이를 항상 수행합니다 . 그러나 임의로 집계하는 것은 정보 (예 : 통계적 힘)를 단순히 "밖으로 쫓아내는"것이 아니라 현상 사이의 관계에 대한 (심각한) 편견으로 이어질 수 있습니다.
Alexis

41

실제로 질문에 대답하지는 않지만이 주제에 대한 전체 책이 있습니다.

Phillip I. Good, James William Hardin (2003). 통계의 일반적인 오류 (및 방지 방법) 와일리 ISBN 9780471460688


6
+1이 책이 나온 직후에 책을 읽었습니다. 통계적 실수를 할 수있는 많은 기회를 얻었으므로 항상 실수 하기 전에 지적 해 주셔서 감사 합니다!
whuber


41

정당화 된 통계.

이 "죄"는 여러분이 가르친 것을 적절성에 관계없이 적용하는 것입니다. 왜냐하면 그것이 일을하는 방식이기 때문입니다. 기계가 통계를 선택할 수 있도록 한 단계 위의 rote 별 통계입니다.

예를 들어 통계 수준의 학생들에게 모든 것이 자신의 t- 검정 및 분산 분석 툴킷에 적합하도록 노력하거나 "아, 나는 범주 형 데이터를 가지고 있습니다. 데이터를 요청하거나 질문을 고려하십시오.

이 죄에 대한 변형은 이해하기 어려운 출력을 생성하기 위해 이해하지 못하는 코드를 사용하는 것이지만 "5 열, 8 행 아래로"또는 원하는 답이 무엇인지 아는 것입니다.


6
당신이 통계적 추론에 관심이없는, 또는 시간 및 / 또는 자원에 대한 부족한 경우 불행하게도, 의식은 ... 매우 appealling 보인다
probabilityislogic

나에게 에피 그라드의 설명은 추론에 지나치게 신경을 쓰고 성찰, 발견, 인과 관계 고려와 같은 것들을 무시하는 사람에 대한 것이다.
rolando2

35

모델 선택 후 단계적 회귀 및 기타 형태의 테스트 일 수 있습니다.

기존 관계의 우선 순위 가설 없이 모델링을 위해 독립적 인 변수를 선택하면 다른 실수 중에서도 논리적 오류나 가짜 상관 관계가 발생할 수 있습니다.

유용한 참고 문헌 (생물학적 / 생물 통계 학적 관점에서) :

  1. Kozak, M., & Azevedo, R. (2011). 순차적 변수 분석 모델을 구축하기 위해 단계별 변수 선택을 사용하는 것이 합리적입니까? Physiologia plantarum, 141 (3), 197–200. doi : 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB, & Freckleton, RP (2006). 왜 우리는 여전히 생태와 행동에서 단계적 모델링을 사용합니까? 동물 생태학 저널, 75 (5), 1182–9. doi : 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Regression Modeling Strategies , Springer 2001.


32

회의 논문과 심지어 저널에서도 놀랄만 한 금액을보고있는 것은 다중 비교 (예 : 이변 량 상관 관계)를 수행 한 다음 모든 p <.05를 ​​"유의 한"것으로보고하는 것입니다 (현재의 옳고 그름을 무시 함).

심리학 졸업생들에 대해 당신이 무엇을 의미하는지 잘 알고 있습니다. 저는 심리학 박사 학위를 마쳤으며 여전히 실제로 배우고 있습니다. 우리가 그것을 사용하려면 심리학이 정량적 데이터 분석을 더 심각하게 취해야한다고 생각합니다.


9
이것은 특히 중요합니다. 라마단이 어머니가 금식하는 아기에게 나쁜지에 대한 연구를 읽은 것을 기억합니다. 그것은 그럴듯 해 보였고 (음식이 적고 출생 체중이 적음) 부록을 보았습니다. 수천 개의 가설과 그 중 몇 퍼센트가 "유의 한"범위에있었습니다. "라마단이 2, 4, 6 개월이면 아이에게 나쁘다"와 같은 이상한 "결론"을 얻습니다.
Carlos

29

탐구 적이지만 확인적인 척하는 것. 이 하나는 분석 전략 (등등 즉 모델 피팅, 변수 선택과) 중심의 데이터를 수정하는 경우 발생하거나 발생할 구동 만 "최고"(즉, 가장 작은 P-값) 결과를보고이 공개적으로 다음 진술하지 것처럼 그것은 유일한 분석이었다. 이것은 또한 Chris Beeley가 여러 번 테스트하여 과학적 보고서에서 높은 오 탐지율을 보이는 경우와 관련이 있습니다.


26

내가 자주보고 항상 기어를 갈아 입는 것은 한 그룹에서 통계적으로 유의 한 주 효과와 다른 그룹에서 통계적으로 유의하지 않은 주 효과가 x의 영향을 의미한다는 가정입니다.



23

상관 관계는 인과 관계를 암시하며, 이는 귀무 가설을 받아들이는 것만 큼 나쁘지 않습니다.


그러나 때때로 ... 때로는 인과 관계의 잠재적 방향이 매우 다른 확률을 가지고 있습니다. 나는 나이와 키 사이의 상관 관계가 키 또는 중간 매개 변수에 의해 발생할 수 있다고 생각하지 않을 것입니다. 또한 이것이 행동 과학 훈련이 일반적으로 매우 민감한 것이라고 생각합니다.
John

실제로 뭔가를 추론하는 것은 A and B are correlated보통 볼 수 A causes B있지만 B causes A... (그리고 잊어 C어떤이의 원인 AB)
안드레 HOLZNER

12
구글은 차이에 신경 쓰지 않고 연간 $ 65B를 만듭니다 ...
Neil McGuigan

5
나는 당신의 요점에 동의하며 그것들 모두 유효합니다. 그러나 Google의 이익은 상관 관계 => 원인을 의미합니까?
suncoolsu

3
구글은 그 모든 돈을 인과 관계에 전혀 신경 쓰지 않습니다. 실제로 왜 그런가? 예측은 사물입니다.
heteroprior

23

분산 분석을 사용하여 속도 데이터 (정확도 등)를 분석하여 실제로 이항 분포 일 때 속도 데이터에 가우시안 분포 오류가 있다고 가정합니다. Dixon (2008) 은 이러한 죄의 결과와보다 적절한 분석 방법의 탐색에 대해 논의합니다.


4
이것이 분석의 힘을 얼마나 줄입니까? 어떤 조건에서 가장 문제가 있습니까? 많은 경우에, ANOVA의 가정으로부터의 편차는 중요한 정도로 결과에 실질적으로 영향을 미치지 않습니다.
Michael Lew

ANOVA 절차의 대안은 무엇입니까?
Henrik

@Michael 루 & 헨릭 : 난 그냥 딕슨에 대한 링크 (2008)를 포함하려면이 항목을 업데이트
마이크 로렌스

2
간단히 말해서, 값의 범위가 제한되어 가우시안 가정을 ​​충족시킬 수 없기 때문에 관찰 된 확률이 낮거나 높을 때 가장 문제가됩니다.
russellpierce

이것은 이항에 대한 정규 근사치만큼 나쁩니다. 각 경우에 비율을 계산하는 데 사용되는 분모가 가중치를 부여하면 괜찮습니다. 10 % 미만 및 90 % 이상의 속도에서는 성능이 저하 될 것으로 예상됩니다.
probabilityislogic

18

현재 인기있는 것은 효과의 분산에만 관련 될 때 반복 측정 설계에서 원시 성능 값에 대해 95 % 신뢰 구간을 플로팅하는 것입니다. 예를 들어, 반복 측정 ANOVA의 MSE로부터 오류 항이 도출되는 신뢰 구간을 갖는 반복 측정 설계에서의 반응 시간 플롯. 이러한 신뢰 구간은 합리적인 것이 아닙니다. 그것들은 절대 반응 시간에 대해서는 아무 것도 나타내지 않습니다. 오차 항을 사용하여 효과 주위에 신뢰 구간을 생성 할 수 있지만 거의 수행되지 않습니다.


검토자가이 너무 일반적인 관례를 요구하지 않도록하기 위해 인용 할 수있는 표준 기사가 있습니까?
russellpierce

내가 아는 유일한 비판은 Blouin & Riopelle (2005)이지만이 문제의 핵심은 아닙니다. 나는 일반적으로 그것들을 보여주지 말고 Masson & Loftus (2003, 그림 4, 오른쪽 패널의 효과 그래프에서와 같이 올바른 무언가를 주장하지 않습니다. 왼쪽에서 제거 된 경우 올바르게 수행했습니다. ).
John

분명히 CI의 문제점은 조건의 차이와 관련하여 열등한 이유로 순수하게 사용되므로 PLSD보다 나쁘다는 것입니다. 사실 나는 그들을 선호합니다. 적어도 그들은 정직합니다.
John

17

Michael Lew가 말한 것의 많은 부분과 관련이있을 수 있지만, 가능성 비율에 찬성하여 p- 값을 포기하는 것은 여전히보다 일반적인 문제, 즉 결과의 실질적 의미를 부여하는 데 필요한 효과 크기보다 확률 론적 결과를 지나치게 강조하는 문제를 놓치고 있습니다. 이 유형의 오류는 모든 모양과 크기로 발생하며 가장 교묘 한 통계적 실수라고 생각합니다. J. Cohen 및 M. Oakes 및 기타를 바탕으로 http://integrativestatistics.com/insidious.htm 에 이에 대한 글을 썼습니다 .


3
가능성 비율 (LR)이 효과 크기가 달성하는 모든 것을 달성하지 못하고 쉽게 해석 할 수있는 척도를 사용하는 방법 (데이터는 Z보다 Y에 대한 X 배 더 많은 증거를 포함 함)을 실제로 알 수 없습니다. 효과 크기는 일반적으로 설명되지 않은 변동성에 대한 설명 비율의 일부 형식 일 뿐이며, 중첩 된 경우 LR은 효과가있는 모델과 그렇지 않은 모델 간의 설명 할 수없는 변동의 비율입니다. 효과 크기와 LR 사이에 적어도 강한 상관 관계가 없어야하며, 그렇다면 가능성 비율 척도로 이동하면 무엇이 손실됩니까?
Mike Lawrence

Mike-관심이 ​​생겼지 만 포인트가 그룹 간의 평균 차이만큼 단순한 크기로 확장됩니까? 이들은 일반인이 쉽게 해석 할 수 있으며 신뢰 구간을 할당 할 수도 있습니다.
rolando2

아, 효과 크기 란 절대 효과 크기를 의미합니다. 절대 효과 크기는 그 자체로는 의미가 없지만 상대 효과 크기로 변환하여 (나중에 언급 한 바와 같이 가변성 측정 단위로 나눔) 의미가 있습니다. 절대 효과 크기에 대한 신뢰 구간 위의 주장은 LR의 장점과 상대 효과 크기에 적용됩니다. 효과의 실제 가치에 관심이있는 경우 (예 : 예측) 효과 CI를 계산하는 것이 유용 할 수 있지만, 나는 여전히 효과에 대한 증거에 대해 이야기하기위한보다 직관적 인 척도로 LR을지지합니다.
Mike Lawrence

LR 대 CI의 사용은 상황에 따라 다를 수 있으며 다음과 같이 유용하게 요약 할 수 있습니다. 이론이 현상의 유무로 특징 지워지는 과학의 더 탐구적인 단계는 증거를 정량화하기 위해 LR을 선호 할 수 있습니다. 다른 한편으로, CI는보다 진보 된 과학 단계에서 선호 될 수 있는데, 이론은 기대되는 효과의 범위를 포함하여 미묘한 예측을 가능하게하거나 반대로 다른 효과 크기의 범위가 다른 이론을지지 할 때 충분히 세분화된다. 마지막으로 모든 모델에서 생성 된 예측에는 CI가 필요합니다.
Mike Lawrence

0|β|=1|β|>1|β|1β=0β0

15

오류가 정규 분포를 따르고 처리간에 일정한 편차가 있다는 가정을 테스트하지 못했습니다. 이러한 가정이 항상 테스트되는 것은 아니므로 최소 제곱 모형 적합은 실제로 부적절 할 때 종종 사용됩니다.


11
데이터가 비정규 또는이 분산 일 때 최소 제곱 추정에 부적절한 것은 무엇입니까? 완전히 효율적이지는 않지만 여전히 편견이없고 일관성이 있습니다.
Rob Hyndman

3
데이터가 이분산성 인 경우 회귀 모델은 분산이 높은 영역의 샘플에서 오류를 최소화하기 위해 너무 열심히 시도하고 분산이 낮은 영역의 샘플에서는 충분히 어렵지 않으므로 샘플 예측이 매우 부정확해질 수 있습니다. 이는 매우 치우친 모델로 끝날 수 있음을 의미합니다. 또한 예측의 오차 막대가 잘못됨을 의미합니다.
Dikran Marsupial

6
아니요, 편견이 없지만 설명하는 이유로 더 효율적인 방법을 사용했을 때보 다 분산이 더 큽니다. 예, 예측 구간이 잘못되었습니다.
Rob Hyndman

4
예 (모형 공간의 고 분산 영역 (메아 컬파)에서 관측치에 모델이 체계적으로 편향되어 있음을 의미하기 위해 통계적 의미가 아닌 구어체로 편견을 사용했습니다)-분산이 높을수록 유한 데이터 세트를 사용하여 불량 모델을 얻을 가능성이 증가합니다. 귀하의 질문에 대한 합리적인 답변 인 것 같습니다. 나는 편견이 그렇게 편안하다고 생각하지 않습니다. 중요한 것은 모델이 실제로 가지고있는 데이터에 대해 좋은 예측을해야하고 종종 분산이 더 중요하다는 것입니다.
Dikran Marsupial

14

저학년의 내 소개 심리 측정 과정은 적어도 2 주 동안 단계적 회귀를 수행하는 방법을 가르치는 데 보냈습니다. 단계별 회귀가 좋은 상황이 있습니까?


6
"좋은 생각"은 상황에 따라 다릅니다. 예측을 극대화하고 싶을 때 끔찍한 아이디어는 아니지만 지나치게 적합 할 수 있습니다. 모델 선택을 안내하는 이론이없는 경우가 불가피한 경우가 있습니다. 나는 단계적 회귀를 "sin"으로 계산하지 않지만 이론이 모델 선택을 추진하기에 충분할 때 그것을 사용합니다.
russellpierce

20
아마도 죄는 단계적 회귀를 통해 얻은 모형에 대한 통계 테스트를 수행하고있을 것입니다.
Rob Hyndman

3
교차 유효성 검사를 사용하고 외삽하지 않는 것이 좋습니다. p- 값은 의미가 없으므로 게시하지 마십시오.
Neil McGuigan

단계적 회귀를 사용하는 프로젝트를 진행 중입니다. 그 이유는 D >> N을 가지고 있기 때문입니다. 여기서 D는 차원이고 N은 표본 크기입니다 (따라서 모든 변수와 함께 하나의 모델을 사용하여 배제). 2-3 개의 "최상의"기능을 선택하고 적어도 보수적 인 보정없이 P- 값을보고하지는 않습니다.
dsimcha

12

내 오래된 통계 전문가는 특이 치를 처리하기위한 "거짓의 규칙"을 가지고 있습니다 : 산점도에 특이점이 있으면 엄지 손가락으로 가리십시오. :)


이것은 너무 끔찍하지 않은 Winsorization과 유사합니다.
Ari B. Friedman

12

이것은 당신이 찾고있는 것보다 더 많은 팝 통계 답변 일 수 있지만,

데이터가 치우친 경우 평균을 위치 표시기로 사용합니다 .

당신과 당신의 청중이 당신이 말하는 것을 알고 있다면 이것은 반드시 문제는 아니지만, 일반적으로 그렇지 않으며, 중앙값은 종종 무슨 일이 일어나고 있는지에 대한 더 나은 아이디어를 줄 것입니다.

내가 가장 좋아하는 예는 평균 임금이며, 보통 "평균 임금"으로보고됩니다. 국가의 소득 / 부 불평등에 따라, 이것은 평균 임금과 크게 다를 수 있으며, 이는 사람들이 실제로 어디에 있는지에 대한 훨씬 더 나은 지표를 제공합니다. 예를 들어, 불평등이 상대적으로 낮은 호주의 경우 중앙값이 평균보다 10-15 % 낮습니다 . 미국에서는 그 차이 가 훨씬 더 심각 하고 중앙값이 평균의 70 % 미만이며 차이가 커지고 있습니다.

"평균"(평균) 임금에 대한보고는 보증 된 것보다 더 냉혹 한 그림을 초래하며, 또한 많은 사람들이 "정상적인"사람들만큼 수입을 얻지 못한다는 잘못된 인상을 줄 수 있습니다.



2
이것은 왜 도와 관련이있을뿐 아니라 분산을 고려하지 않고 평균 또는 다른 중심 경향 측정 값으로는 충분하지 않다는 일반적인 문제입니다. 예를 들어, 두 그룹의 중앙값이 같지만 사 분위 간 범위가 한 인구에 비해 100 배 큰 경우입니다. 중앙값을 보면, 실제로는 매우 다른 인구 분포 일 것입니다. 문제를 일으키는 여러 모드는 말할 것도없고 ...
확률 론적

그러나 일부 목적의 경우 평균 의미 가 있습니다 . 임금은 광범위한 변수이므로 임금의 합계는 의미가 있습니다. 일부 (하위) 그룹의 총 임금 소득이 관련된 질문의 경우 수단이 옳은 것입니다. 총액은 중간 값이 아닌 평균에서 회복 될 수 있습니다.
kjetil b halvorsen

@kjetilbhalvorsen : 왜 합계를 사용하지 않습니까?
naught101

n

10

p- 값은 귀무 가설이 참일 확률이고 (1-p)는 대립 가설이 참일 확률이며, 귀무 가설을 기각하지 못하는 대립 가설은 거짓 등을 의미합니다.


1
1

흥미롭게도, 그것에 대해 읽을 수있는 참고 자료를 제공해 주시겠습니까?
Dikran Marsupial

2
[(여기 요) ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] 우도 비율의 사후 분포의 양이다 왜의 문제로 어려움을 겪고, 나는 그것이 흥미 않지만, 개인적으로 관심.
probabilityislogic

10

@dirkan과 유사한 맥락에서-귀무 가설이 참이라는 증거의 공식적인 척도로 p- 값을 사용합니다. 휴리스틱하고 직관적으로 좋은 기능이 있지만 대체 가설을 언급하지 않기 때문에 본질적으로 불완전한 증거 측정입니다. 데이터가 널 (null) 아래에있을 가능성은 적지 만 (작은 p- 값으로 이어짐), 데이터는 대립 가설하에 있을 가능성이 더 적습니다 .


나는 하나를 생각하는 데 어려움을 겪고 싶지 않기 때문에 대답하지 않고 있으며, 반복하지 않도록하기 위해 이미 주어진 모든 것들을 넘어서고있는 문제에 대해! 하지만 도움이 될 것 같아요. Good and Hardin의 저서에는 "통계의 일반적인 오류와이를 피하는 방법"이 있습니다. 거기에서 훌륭한 예를 많이 찾을 수 있습니다. 그것은 이미 네 번째 판에 들어가는 인기있는 책입니다.
Michael Chernick

또한 Chapman & Hall / CRC "의료 연구 실용 통계"와 함께 Altman의 저서에는 출판 된 논문에서 발생하는 많은 통계적 죄가 드러난 의학 문헌에 관한 장이 있습니다.
Michael Chernick


9

가설 검정에서 통계 / 확률을 사용하여 "절대 진실"을 측정합니다. 통계는 단순히 이것을 할 수 없으며, 대안 사이를 결정할 때만 사용할 수 있으며 통계 패러다임의 "외부"에서 지정해야합니다. "통계에 의해 귀무 가설이 입증 된 것"과 같은 문장은 잘못되었습니다. 통계는 "대립 가설과 비교하여 귀무 가설이 데이터에 의해 선호된다"는 것만 알 수 있습니다. 그런 다음 귀무 가설 또는 대안이 참이어야 한다고 가정 할 경우 "널이 참임을 증명했습니다"라고 말할 수 있지만 이는 데이터에 의해 입증 된 것이 아니라 가정의 결과에 불과합니다.


9

α=0.05

그리고 @ogrisel의 답변 과 유사하거나 거의 동일 하며 그리드 검색을 수행하고 최상의 결과 만보 고합니다.


불멸의 만화이지만 다른 만화에 연결하려고했다고 생각합니다.
rolando2

아마도 내가 생각했던 것을 충분히 기억한다면 xkcd.com/882
Andrew

8

약간의 운이 있으면 논쟁의 여지가 있습니다.

과학 실험의 통계 분석에 Neyman-Pearson 접근 방식을 사용합니다. 또는 더 나쁜 것은 Neyman-Pearson과 Fisher의 잘못 정의 된 하이브리드를 사용하는 것입니다.


무지하게되어 유감이지만 과학 실험의 결과에 대한 Neyman-Pearson 구성의 문제점은 무엇입니까?
Andre Holzner

@Andre 나는이 말이이 스레드의 다른 곳에서 @Michael Lew가 제공하는 다른 것과 관련이 있다고 생각합니다 ( stats.stackexchange.com/questions/4551/… ).
whuber

8

플로우 차트 요청 및 획득 : 변수의 수준과 원하는 관계를 말하고 화살표를 따라 브랜드 이름 테스트 또는 브랜드 이름 통계를 얻는 그래픽 . 때로는 신비로운 '파라 메트릭'및 '비모수'경로가 제공됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.