"현대"통계를위한 경험 법칙


85

나는에 G 반 벨의 책처럼 엄지 손가락의 통계 규칙 , 그리고 정도는 덜 통계의 일반적인 오류 (및이를 방지하는 방법) 필립 나는 좋은 제임스 W. 하딘에서. 실험 및 관찰 연구 결과를 해석 할 때의 일반적인 함정을 다루고 통계적 추론 또는 탐색 적 데이터 분석에 대한 실제 권장 사항을 제공합니다. 그러나 나는 "현대적인"가이드 라인이 다소 부족하다고 느낀다. 특히 다양한 분야에서 계산 및 강력한 통계의 사용이 증가하고 있거나 임상 생물 통계학 또는 유전자 역학과 같은 머신 러닝 커뮤니티의 기술 도입과 함께 말이다.

다른 곳에서 다룰 수있는 데이터 시각화의 일반적인 계산 방법이나 함정 외에도 다음과 같은 질문을하고 싶습니다 . ( 답변 당 하나의 규칙을 참조하십시오 ).

동료, 통계 모델링에 대한 배경 지식이없는 연구원 또는 중상급 과정의 학생에게 제공 할 수있는 지침을 생각하고 있습니다. 이는 샘플링 전략, 기능 선택 또는 모델 구축, 모델 비교, 사후 추정 등과 같은 다양한 데이터 분석 단계와 관련이있을 수 있습니다.

답변:


62

분석을 시작하기 전에 기본 데이터 검사를 수행하는 것을 잊지 마십시오. 특히, ID 번호, 데이터 수집 날짜 / 시간 등을 분석하려는 모든 변수의 산점도를 살펴보십시오. 요약 통계가 비정상적인 것을 나타내지 않을 때 눈은 종종 문제를 나타내는 패턴을 선택할 수 있습니다. 그리고 분석을 위해 로그 또는 다른 변환을 사용하려는 경우 플롯에도 사용하십시오.


6
나는 이것을 열심히 배웠다. 두번.
onestop

2
예! 도약하기 전에 살펴보십시오. 데이터를 확인하십시오.
vqv

7
사후 결정이 내려지면 데이터의 육안 검사로 인해 유형 I 오류가 발생할 수 있습니다 . 나는 확인 분석을 사전에 지정한대로 수행하는 경향이 있으며 조사 또는 민감도 분석으로 검사에 영향을받은 결과를 포함합니다.
AdamO

51

분석을 재현 가능하게 유지하십시오. 검토 자 또는 상사 또는 다른 사람이 결과를 정확히 얼마나 정확하게 도달했는지 묻습니다. 분석 후 6 개월 이상이 소요될 수 있습니다. 데이터를 정리 한 방법, 수행 한 분석, 사용한 특정 모델을 선택한 이유 등을 기억 하지 못할 것 입니다.이 모든 것을 재구성하는 것은 고통 스럽습니다.

추론 : 일종의 스크립팅 언어를 사용하고 분석 스크립트에 주석을 달고 보관하십시오. 사용하는 것 (R, SAS, Stata 등)은 완전히 재현 가능한 스크립트를 갖는 것보다 덜 중요합니다. 이것이 불가능하거나 어색한 환경을 거부하십시오.


24
R을 사용하려면 보고서를 생성하는 Sweave 문서에 R 코드를 포함시키는 것이 좋습니다. 그렇게하면 R 코드가 보고서와 함께 유지됩니다.
John D. Cook

36

무료 점심은 없습니다

숨겨진 가정에 대한 부담을 고려하지 않고 "중요도 계산"이라는 큰 반짝이는 버튼을 클릭하면 통계 실패의 상당 부분이 생성됩니다.

반복

임의 생성기에 대한 단일 호출이 포함 되더라도 운이나 불운이있을 수 있으므로 잘못된 결론으로 ​​넘어갑니다.


29

답변 당 하나의 규칙 ;-)

연구 수행 하기 전에 통계 전문가와상의하십시오 . 가능하면 보조금을 신청하기 전에. 공부하고있는 문제를 이해하도록 돕고, 수집하려는 데이터를 분석하는 방법에 대한 정보를 얻고 연구 설계 및 데이터 요구 사항에 어떤 의미가 있는지 생각하십시오. 아마도 통계 가이 / 갤은 환자를 진단 한 사람을 설명하기 위해 계층 적 모델을 제안 할 것입니다. 그런 다음 누가 누가 진단했는지 추적해야합니다. 사소한 것처럼 들리지만 나중에 데이터를 수집하기 전에 (그리고 중요한 것을 수집하지 못하기 전에) 이것에 대해 생각하는 것이 훨씬 좋습니다.

관련 참고 사항 : 시작하기 전에 전력 분석을 수행하십시오. 충분히 큰 표본 크기에 대해 예산을 책정하지 않은 것만 큼 실망스러운 것은 없습니다. 예상되는 효과 크기에 대해 생각할 때는 출판 편향을 기억하십시오. 발견하려는 효과 크기는 아마도 (편향된) 문헌에서 기대했던 것보다 작을 것입니다.


28

학생들에게 한 가지 말은 모든 p- 값에 대해 적절한 그래프를 생성하는 것입니다. 예를 들어, 상관 관계를 테스트하는 경우 산점도, 일원 분산 분석을 수행하는 경우 나란히 상자 그림을 표시합니다.


28

데이터를 분석하는 두 가지 방법 중 하나를 결정하는 경우 두 가지 방법을 모두 사용해보고 차이가 있는지 확인하십시오.

이것은 많은 상황에서 유용합니다 :

  • 변형하거나 변형하지 않으려면
  • 비모수 또는 매개 변수 테스트
  • 스피어 맨 또는 피어슨의 상관 관계
  • PCA 또는 요인 분석
  • 산술 평균을 사용할지 또는 평균의 강력한 추정치를 사용할지 여부
  • 공변량 포함 여부
  • 리스트 방식 삭제, 페어 방식 삭제, 대치 또는 결 측값 대체 방법 사용 여부

이것은 문제를 통해 생각하는 것을 해결해서는 안되지만 적어도 실질적인 발견이 선택에 견실 한 정도를 의미합니다.


4
인용입니까? 대안 테스트 절차 (분석 전략이 아님)를 시도해도 유형 I 오류 또는 초기 전력 계산에 대한 제어가 다소 어려울 수있는 방법이 궁금합니다. SAS가 매개 변수 및 비모수 테스트 (적어도 평균과 ANOVA의 두 샘플 비교에서)의 결과를 체계적으로 반환한다는 것을 알고 있지만 항상 다음과 같은 흥미로운 점을 발견합니다.
chl

4
@chl 좋은 지적. 위의 경험 법칙을 잘못된 이유로 사용할 수 있음에 동의합니다. 즉, 여러 가지 방법으로 시도하고 더 만족스러운 답변을 제공하는 결과 만보고합니다. 경험적 결론은 분석 결정이 실질적인 결론에 미치는 영향을 배우기 위해 데이터 분석가 훈련 도구로서 유용하다고 생각합니다. 나는 많은 학생들이 특히 실질적인 결론에 최소한의 영향을 미치는 문헌 (예를 들어, 변형하거나 변형하지 않기 위해)에 충고하는 조언이있을 때 결정을 잃는 것을 보았습니다.
Jeromy Anglim

1
@chl 아니오 그것은 견적이 아닙니다. 그러나 나는 이론의 근거와 경고에서 경험의 법칙을 구별하는 것이 좋다고 생각했다. 명확하게하기 위해 굵게 변경했습니다.
Jeromy Anglim

1
좋아, 다른 변형을 시도하고 그것이 연구 된 관계를 설명하는 더 좋은 방법을 제공하는지 살펴 보는 것이 합리적이다. 내가 이해하지 못하는 것은 다른 분석 전략을 시도하는 것입니다. 그러나 현재 관행이지만 (공개 기사 :-)에는보고되지 않습니다. 서로 다른 가정에 의존 할 때 (EFA와 PCA의 경우 추가 오류 항을 가정하고, 비모수 적 대 파라 메트릭 테스트에서는 가정의 일부를 버리는 등) 그러나, 나는 탐색 적 분석과 확증 적 분석 사이의 경계가 명확하지 않다는 것에 동의한다 ...
chl

2
이것은 탐색 적 분석이나 훈련 및 검증 단계에서만 유용합니다. 항상 최종 검증 테스트 단계가 필요합니다. 그렇지 않으면 '주관적인'신념에 따라 원하는 차이를 얻었을 때 잘 작동하는 중요한 결과로 스스로를 속일 수 있습니다 . 어떤 방법이 더 나은지 누가 판단해야합니까? 개인적으로, 다른 방법을 의심하는 경우 추정 데이터의 분산 또는 견고성 등을 테스트하기 위해 시뮬레이션 된 데이터에서 테스트합니다.
Martijn Weterings

22

데이터에 질문하십시오. 저렴한 RAM의 현대 시대에 우리는 종종 많은 양의 데이터를 처리합니다. 하나의 '팻 핑거'오류 또는 '소수점 손실'은 분석을 쉽게 지배 할 수 있습니다. 기본적인 위생 검사 (또는 다른 사람들이 제안한대로 데이터를 표시)가 없으면 많은 시간이 낭비 될 수 있습니다. 또한 특이점에 '견고성'을위한 몇 가지 기본 기술을 사용하는 것이 좋습니다.


2
추론 : 누군가가 "NA"대신 "9999"로 결 측값을 코딩했는지 확인하십시오. 소프트웨어가 액면가에서이 값을 사용하면 분석 결과가 엉망이됩니다.
Stephan Kolassa

21

원시 데이터에서 최종 분석 / 결과에 이르기까지 프로그래밍 로직 체인을 보여주는 소프트웨어를 사용하십시오. 한 사용자가 한 셀에서 감지 할 수없는 오류를 만들 수있는 Excel과 같은 소프트웨어는 피하십시오. 수동 검사 만 가능합니다.


1
VisTrails 는이 프로세스를 돕는 하나의 시스템입니다. (일반적인 그룹의 목표는 특정 도구보다 더 중요 난 단지 사제 시스템을 사용했습니다.)
데니스

18

항상 "이러한 결과의 의미와 결과는 어떻게 사용됩니까?"

일반적으로 통계 사용의 목적은 불확실한 의사 결정을 돕는 것입니다. 따라서 "이 분석의 결과로 어떤 결정을 내리게되며이 분석이 이러한 결정에 어떤 영향을 미치게 될까요?" (예를 들어, 기사를 게시하고, 새로운 방법을 사용하도록 권장하고, Y에게 자금을 $ X 제공하고, 더 많은 데이터를 얻고, 추정 수량을 E 등으로보고하는 등 .....)

어떤 결정을 내릴 생각이 없다면, 왜 분석을하기에는 비용이 많이 드는지에 대해 왜 먼저 분석을 수행하는지 궁금합니다. 나는 통계가 끝 자체가 아니라 목적에 대한 수단이라는 점에서 "불량"이라고 생각합니다. 필자의 관점에서 우리는 불확실성을 정량화하여이 불확실성을 설명하는 결정을 내리는 데 사용할 수 있습니다.

이것이 단순한 일을 유지하는 것이 일반적으로 좋은 정책 인 이유 중 하나라고 생각합니다. 단순한 해결책을 복잡한 해결책보다 현실 세계 (따라서 결정이 이루어지는 환경)와 연관시키는 것이 훨씬 쉽기 때문입니다. . 일반적으로 간단한 답변의 한계를 이해하는 것이 더 쉽습니다. 그런 다음 간단한 솔루션의 한계와 복잡한 솔루션의 해결 방법을 이해하면보다 복잡한 솔루션으로 이동합니다.


3
나는 일을 단순하게 유지한다는 개념을 제외한 모든 것에 동의합니다. 나에게 단순함이나 복잡함은 당신이 웅변 적으로 설명했던 부적절한 결정 비용의 함수 여야한다. 단순성은 한 영역에서 무시할만한 비용 (예 : 고객에게 잘못된 광고를 게재)과 다른 영역에서 크게 다른 비용 (환자에게 잘못된 치료 관리)을 가질 수 있습니다.
Thomas Speidel

18

긴 목록이 있지만 몇 가지를 언급 ​​할 수 있습니다 (특정 순서는 아님).

  1. P- 값은 확률이 아닙니다. 특히, 유형 I 오류가 발생할 가능성은 없습니다. 마찬가지로 CI는 주어진 데이터에 대한 확률 론적 해석이 없습니다. 반복 실험에 적용 할 수 있습니다.

  2. 분산과 관련된 문제는 실제로 대부분의 시간 동안 편향을 지배하므로, 작은 분산을 갖는 편향 추정치는 큰 분산을 갖는 편향 추정치 (대부분)보다 낫습니다.

  3. 모델 피팅은 반복적 인 프로세스입니다. 데이터를 분석하기 전에 데이터 소스와 설명에 적합하거나 적합하지 않은 가능한 모델을 이해하십시오. 또한 모델의 설계 문제를 모델링하십시오.

  4. 시각화 도구를 사용하여 분석하기 전에 데이터 (데이터를 이해하기 위해 가능한 이상, 명백한 추세 등)를 살펴보십시오. 시각화 방법 (가능한 경우)을 사용하여 모델이 해당 데이터에 어떻게 적합한 지 확인하십시오.

  5. 마지막으로, 계산 작업을보다 쉽게하기 위해 통계 소프트웨어를 사용하면 인간의 사고를 대신 할 수 없습니다.


14
항목 1이 잘못되었습니다. P 값은 귀무 가설을 고려할 때 데이터를 극도로 또는 극도로 얻을 확률입니다. 내가 아는 한 P 확률이지만 조건부이지만 확률입니다. 네만-피어슨의 패러다임 패러다임 내에서 일하고있는 상황에서 당신의 진술은 정확하지만, P 값이 귀무 가설에 대한 증거의 선고 인 피셔 패러다임 내에서 일하는 것은 아닙니다. 패러다임은 정기적으로 불일치 한 흠 잡음에 섞여 있지만, 둘 다 단독으로 사용하고 그대로 사용하면 둘 다 '올바른'것입니다.
Michael Lew

2
신뢰 구간의 경우, 다시 Neymanian 신뢰 구간의 범위 내에서만 수정하십시오. Fisher (및 그 이전의 다른 사람들)도 신뢰 구간으로 해석 할 수있는 것을 고안하고 사용했으며, 구간을 생성하는 특정 실험을 참조하여 이러한 구간을 완벽하게 유효한 해석이 있습니다. 제 생각에는 네이 먼보다 훨씬 선호했습니다. 질문 : 이산 함수 : 신뢰 구간 범위? 자세한 내용 : stats.stackexchange.com/questions/8844/…
Michael Lew

@Michael은 정확하지만 Null은 몇 번입니까? 또는 더 나은 : 누구든지 null이 올바른지 증명할 수 있습니까? 우리는 이것에 대해 깊은 철학적 토론을 할 수도 있지만 그게 요점이 아닙니다. 품질 관리 반복에서는 의미가 있지만 과학에서는 올바른 의사 결정 규칙 데이터를 처리 해야합니다 .
suncoolsu

1
Fisher는이 사실을 알았습니다 (관측 된 데이터에 대한 조건 및 품질 관리에 대한 언급은이를 기반으로 함). 그는 이것을 바탕으로 많은 반대 사례를 만들어 냈습니다. 베이지안은 반세기 이상 이것에 대해 싸워왔다.
suncoolsu

1
μ=0

13

데이터 구성 / 관리의 경우 데이터 세트에서 새 변수를 생성 할 때 (예 : 신장 및 체중에서 체질량 지수 계산) 원래 변수가 절대 삭제되지 않도록하십시오. 비파괴 접근 방식은 재현성 관점에서 가장 좋습니다. 언제 명령을 잘못 입력했는지 알 수 없으므로 변수 생성을 다시 실행해야합니다. 원래 변수가 없으면 많은 시간이 손실됩니다!


11

기본 데이터 생성 프로세스 (DGP)에 대해 열심히 생각하십시오 . 사용하려는 모델에 DGP가 반영되어 있지 않으면 새 모델을 찾아야합니다.


DGP가 무엇인지 어떻게 알 수 있습니까? 예를 들어, 아직 잘 발달 된 이론 (특정 유형의 공공 지출이 발생하는 이유)을 아직 보지 못한 지역에서 시계열을 실행합니다. 나는이 경우에 진정한 과정을 알 수 있다고 생각하지 않습니다.
user54285

8

히스토그램의 경우 히스토그램 의 빈 수에 대한 경험적 규칙은 다음과 같습니다.

데이터 포인트 수의 제곱근


6

점점 더 큰 데이터 세트와 더 강력한 소프트웨어에도 불구하고, 과적 합 모델은 특히 과적 합에 의해 불타 지 않은 연구자들에게 주요 위험입니다. 과적 합이란 데이터와 최첨단 기술보다 복잡한 것을 장착했다는 의미입니다. 사랑이나 아름다움처럼 정의하기는 어렵지만 공식적으로 정의하는 것은 물론 인식하기가 더 쉽습니다.

최소한의 경험 법칙은 고전적 회귀와 같은 것으로 추정되는 모든 매개 변수에 대해 10 개의 데이터 포인트이며 무시할 경우 그 결과에주의하십시오. 다른 분석의 경우, 특히 데이터에 희귀 범주가있는 경우 일반적으로 더 잘 수행하려면 훨씬 더 많은 작업이 필요합니다.

모델을 쉽게 맞출 수 있더라도 비슷한 데이터 세트로 모델의 의미와 재현 가능한 정도에 대해 계속 걱정해야합니다.


이는 일반적으로 반응이 조건부로 정상인 모델의 경험 법칙으로 간주됩니다. 다른 경우에는 너무 개방적입니다. 예를 들어, 이진 분류의 경우, 해당 경험 법칙은 모든 변수에 대해 덜 일반적으로 발생하는 범주에서 15 개의 관측치입니다. & 생존 분석의 경우, 모든 변수에 대해 10 개의 이벤트 (즉, 검열되지 않은 데이터)가됩니다.
gung

동의한다. 편집 하겠지만, 확장 된 주석과 함께 자신 만의 경험 규칙을 게시 해 보지 않겠습니까?
Nick Cox

1
마지막 문장을 강조해야합니다. "모델을 쉽게 맞출 수 있더라도 모델의 의미와 매우 유사한 데이터 세트로 재현 할 수있는 정도에 대해 계속 걱정해야합니다."
Martijn Weterings 2016 년

6

와이+h(와이,엑스) >(와이1,엑스1),,(와이,엑스)

  1. 와이+h
  2. 와이+h와이

와이+h와이+엑스


5

모델이 쉽고 빠르게 수렴하지 않으면 소프트웨어 오류 일 수 있습니다. 그러나 데이터가 모델에 적합하지 않거나 모델이 데이터에 적합하지 않은 것이 훨씬 더 일반적입니다. 어떤 것을 말하기는 어려울 수 있으며, 경험 주의자와 이론가는 다른 견해를 가질 수 있습니다. 그러나 주제에 관한 사고, 실제로 데이터를보고, 모델의 해석에 대한 끊임없는 사고는 가능한 한 많은 도움이됩니다. 무엇보다도 복잡한 모델이 수렴하지 않으면 더 간단한 모델을 사용해보십시오.

수렴을 강요하거나 승리를 선언하고 많은 반복 후에 그러나 모델이 실제로 수렴되기 전에 결과를 얻는 데는 이점이 없습니다. 그렇게하면 기껏해야 바보가됩니다.


"실제로 데이터를보고"우리에게이 작업을 수행하는 NN을 얻게되면 정말 좋을 것입니다.
Martijn Weterings 2016 년

JWT라고 불 렸습니다.
Nick Cox

5

도구 변수 회귀 분석에서는 항상 도구의 공동 유의성을 확인하십시오. Staiger-Stock의 경험 법칙에 따르면 F- 통계량이 10 미만이면 걱정스럽고 장비가 약할 수 있습니다 (즉, 내인성 변수와 충분히 관련이 없음). 그러나 이것이 10보다 큰 F가 강력한기구를 보장한다는 것을 자동으로 암시하지는 않습니다. Staiger와 Stock (1997) 은 2SLS와 같은 도구 변수 기법이 도구가 내생 변수와 약하게 상관되어있는 경우 "작은"샘플에서 잘못 편향 될 수 있음을 보여주었습니다. 그들의 예는 30 만 이상의 관측치를 가진 Angrist와 Krueger (1991)의 연구인데, 이것은 "작은"샘플의 개념에 대한 혼란스러운 사실입니다.


기사에 대한 링크를 추가했지만이 답변에 추가 형식이 필요하다고 생각하며 기사를 매우 빠르게 스캔하여 '엄지 규칙'을 강조하는 것이 너무 어렵다는 것을 알았습니다.이 답변은 매우 직관적이지 않습니다.
Martijn Weterings 2016 년

3

정보 기준을 선택할 기준이 없습니다.

누군가가 "? IC가 이것을 나타내지 만, 종종 잘못된 결과를주는 것으로 알려져 있습니다"(여기서?는 원하는 문자 임)와 같은 말을하면, 당신은 또한 모델과 특히 그것이 모델인지에 대해 생각 해야한다는 것을 알고 있습니다 과학적 또는 실제적 의미.

대수는 당신에게 말할 수 없습니다.


2

나는 이것을 어딘가에서 읽고 (아마도 교차 검증 된) 어디에서나 그것을 찾을 수 없었으므로 여기로 간다.

흥미로운 결과를 발견했다면 잘못되었을 수 있습니다.

p- 값이 엄청나거나 거의 완벽한 교차 검증 오류가 발생할 가능성에 매우 쉽게 흥분됩니다. 나는 개인적으로 황홀경으로 동료들에게 멋진 (거짓) 결과를 보여주었습니다. 사실 너무보기에 좋지 않다면 ...

'진실입니다. '진정하다.


2

덕적이지 않고 용감하게 행동하십시오. 즉, 비정규 성, 비 독립성 또는 비선형 등의 사소한 표시가 데이터를 크고 명확하게 말하기 위해 그러한 표시를 무시 해야하는 경우 도로를 막지 않도록하십시오. . -덴마크어에서는 'dristig'와 'dydig'가 형용사입니다.


1

종단 데이터를 분석 할 때는 각 기간에 변수가 동일한 방식으로 코딩되어 있는지 확인하십시오.

2 차 자료의 분석을 수반하는 논문을 작성하는 동안 연도별로 다른 평균을 넘어 평균 우울증 점수에서 1 단위의 이동으로 일주일 정도의 혼란이있었습니다. 검증 된 기기의 데이터 세트, 스케일 항목은 0–3 대신 1-4로 코딩되었습니다.


1

가설은 반대 방향이 아니라 모델 선택을 이끌어야합니다.

Maslow를 말하면, 당신이 망치라면 모든 것이 못처럼 보입니다. 특정 모델에는 세계에 대한 장님과 가정이 포함되어 있습니다. 예를 들어 비 동적 모델은 치료 결과 피드백에 질식합니다.


1

시뮬레이션을 사용하여 모델 구조가 모델 가정의 수학적 유물 인 "결과"를 생성 할 수있는 위치를 확인하십시오.

재배치 되지 않은 변수 또는 서로 관련이없는 것으로 알려진 모의 변수에 대한 분석을 수행하십시오 . 이것을 여러 번 수행하고 실제 데이터에서 얻은 결과와 평균 점 추정치 (및 신뢰도 또는 신뢰할 수있는 간격)를 대조하십시오. 모두 다릅니 까?


0

저는 통계학자가 아닌 데이터 분석가이지만 이것이 제 제안입니다.

1) 데이터를 분석하기 전에 분석법의 가정이 올바른지 확인하십시오. 결과를 확인하면 문제를 해결하고 결과가 변경된 후에도 잊어 버리기가 어려울 수 있습니다.

2) 데이터를 아는 데 도움이됩니다. 나는 시계열을 실행하고 최근 몇 년 동안의 데이터를 감안할 때 거의 의미가없는 결과를 얻었습니다. 나는 그 방법에 비추어 방법을 검토하고 그 방법에서 모델의 평균화가 한 기간 동안 결과를 왜곡하고 있음을 발견했습니다 (그리고 구조적 중단이 발생했습니다).

3) 규칙에주의하십시오. 그들은 자신의 데이터에서 개별 연구자들의 경험을 반영하며, 자신의 분야가 당신과 매우 다른 경우 그들의 결론은 귀하의 데이터에 맞지 않을 수 있습니다. 게다가 통계 학자들은 종종 요점에 동의하지 않습니다.

4) 다른 방법으로 데이터를 분석하고 결과가 유사한 지 확인하십시오. 완벽한 방법이 없음을 이해하고 가정 위반을 확인할 수있는시기를주의 깊게 확인하십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.