통계에서 시대적 관행의 예는 무엇입니까?


55

나는 그들이 대처하기 위해 고안된 문제들 (보통 계산적)이 대부분 해결되었지만, 여전히 그 존재를 유지하는 관행을 언급하고있다.

예를 들어, Yates의 연속성 보정은 테스트를 사용하여 Fisher의 정확한 테스트를 근사하기 위해 고안 되었지만 더 이상 실용적이지 않습니다. 소프트웨어는 이제 큰 샘플로도 Fisher의 테스트를 처리 할 수 ​​있기 때문입니다. Agresti의 Categorical Data Analysis 와 같은 교과서에서 종종 Yates의 수정이 더 이상 필요하지 않다는 것을 인정하기 때문에 존재 "χ2

그러한 관행의 다른 예는 무엇입니까?


피셔의 정확한 테스트를 수행하기위한 컴퓨팅 성능의 가용성으로 카이 제곱 테스트가 더 이상 사용되지 않는지 실제로는 잘 모르겠습니다. 예를 들어 한계가 실제로 고정되어 있습니까? 예를 들어 @gung의 다른 질문대한이 답변을 참조하십시오 . (문제에 대해 더 자세히 논의하는 스레드가 있다고 확신하지만 "카이 제곱을 사용해야합니까? 아니면 Fisher의 정확한 테스트를 사용해야합니까"라는 질문이 많으므로 찾을 수 없습니다. 검색합니다!)
Silverfish 2016 년

χ2


LAD 대신 OLS를 사용합니까?
PatrickT

5
@ 패트릭 : 나는 OLS 시대를 부르는 데 많은 어려움을 겪고 있습니다. 물론 LAD가 분명히 우월한 특별한 경우가 있지만 다른 방향에서도 마찬가지입니다.
Cliff AB

답변:


49

P=0.05P=0.01P

P

나는 여기서 전체 책과 수천 장의 논문에 초점을 둔 복잡하고 논쟁의 여지가있는 문제에 대해 언급 할 것이지만,이 주제에 대한 적절한 예인 것 같다.


4
좋은 예입니다! 참고 로이 스레드는 언급 할 가치가 있습니다 .p- 값과 관련하여 왜 1 %와 5 %입니까? 왜 6 % 또는 10 %가 아닌가?
Francis

5
@ JM 99 % 확신하지는 않지만 95 % 확신합니다.
Mark L. Stone

5
α=0.038561

4
@CliffAB 정확한 P- 값의 요점은 결정에 채택하려는 임계 수준을 구성한다고 결정하는 것입니다. 나는 그것을 제안하거나 옹호하지 않습니다. 여기서 논란의 일부는 0.05와 0.01이 가장 좋은 수준에 불과하다는 것이 아니라 테스트는 이진 결정을 내리기보다는 귀무 가설에 대한 증거의 강도를 평가하는 한 가지 방법을 제공한다는 것입니다. 실제로 0.05 및 0.01 수준은 많은 분야에서 매우 많이 사용됩니다.
Nick Cox

4
@Nick Cox 느긋하고 부드러운 군중의 0.1 레벨을 잊지 마십시오.
Mark L. Stone

24

이 사이트의 많은 방문자가 저에게 동의 할 것이라고 생각하는 한 가지 방법은 단계적 회귀입니다. 그것은 여전히 완전히 완료 되었지만 사용을 방해한다고 말하는이 사이트의 전문가를 멀리 검색 할 필요는 없습니다. LASSO와 같은 방법이 훨씬 바람직합니다.


4
하아!! 아나크로니즘 (단계별 회귀)을 차세대 아나크로니즘 (LASSO)으로 교체 할 것을 권장합니다. stats.stackexchange.com/questions/162861/…을 참조하십시오 .
Mark L. Stone

3
@ MarkL.Stone : 이봐, 적어도 올바른 방향으로 20 년입니다. 나는이 방법들에 익숙하지 않다. 그래서 나는 그들에게 보증을주기 전에 그것들을 읽어야 할 것이다.
Cliff AB

2
기사를 빨리 읽은 후 LASSO가 공식적으로 구식이라고 결정하는 것이 주저합니다. 비록 그것이 항상 최적의 선택은 아닙니다. 아마도 5 년 안에 LASSO를 쓸모 없게 만드는 것이 더 편할 것입니다.
Cliff AB

2
@amoeba : Mark는 LASSO를 최상의 하위 집합 회귀 도구로 사용하는 방법을 언급하고 있다고 생각합니다. 예를 들어, 누군가 LASSO를 먼저 피팅 한 다음 0이 아닌 회귀 매개 변수를 사용하여 처벌되지 않은 모델을 다시 논의하는 것을 읽은 것을 모호하게 기억합니다. 최선의 부분 집합 회귀 분석은이 작업을 수행하는보다 직접적인 방법 일 수 있습니다 (하지만, 분석가 가 원하는 경우에도 이것이 좋은 아이디어인지는 확실 하지 않습니다).
Cliff AB

2
... 그리고이 논문 은 LASSO를 명확하게 능가하는 적어도 하나의 상황 (즉, 특정 매개 변수 하에서의 시뮬레이션)을 제시 하지만, 우리는 스스로 그 결과를 얼마나 심각하게 받아 들여야하는지 정확하게 알고 있다고 생각합니다.
Cliff AB

17

필자는 적어도 (적용된) 계량 경제학에서 공분산 행렬의 정확한 사양에 (무의식적으로) 의존하는 "비대칭 적 관행"보다는 견고하거나 경험적인 공분산 행렬을 사용하는 것이 점점 더 표준이라고 생각합니다. 이것은 물론 논쟁의 여지가 없습니다 : CrossValidated에서 여기에 링크 된 답변을 참조하십시오. 그러나 분명한 추세입니다.

E[uu]=σ2In

다른 예로는 패널 데이터, Imbens 및 Wooldridge 등의 강의 슬라이드 에 랜덤 효과 분산 공분산 행렬을 사용하지 않는 것에 대한 논란이 있습니다 (기본적으로 분산 구성 요소의 일부 잘못된 지정을 가정).

σc2σu2

종종 오히려 (여기에 시대 착오적 인 관행을) 올바른 분배 가정에 의존하지 않고 항상 소위 샌드위치 추정을 사용하는 것이 좋습니다 (지수 가족에 속한다 배포의 경우)을 일반화 선형 모델을 사용하여 다음을 참조 예를 들어이 대답을 하거나 카메론 참조 의사 최대 가능성 추정 은 잘못 지정된 경우에 매우 유연 할 수 있기 때문에 데이터를 계산합니다 (예 : 음 이항이 올바른 경우 포아송 사용).

이러한 [백색] 표준 오차 보정은 Poisson 회귀에 대해 이루어져야합니다. 왜냐하면 OLS에 대한 유사한 이분산성 보정보다 훨씬 큰 차이를 만들 수 있기 때문입니다.

Greene은 14 장 (웹 사이트에서 구할 수 있음)의 교과서에 중요한 메모를 작성하고이 연습의 장단점에 대해 자세히 설명합니다.

현재 문헌에는 우도 함수에 관계없이이 [샌드위치] 추정기를 정기적으로 계산하는 경향이 있습니다. * [...] * 우리는 샌드위치 추정기가 그 자체로는 반드시 그럴 필요는 없음을 다시 강조합니다. 우도 함수가 잘못 지정되고 M 추정기의 다른 조건이 충족되지 않는 경우 미덕.


4
흥미롭지 만 질문은 시대에 뒤 떨어진 것이지, 점점 표준이 되었기 때문에 답이 반전되어야합니다.
Nick Cox

1
안녕하세요 Nick, 귀하의 의견 (및 편집)에 감사드립니다. 이전의 연습은 표준 오류에 대해 특별히 아무것도하지 않기 때문에 전체 텍스트를 뒤집지 않았습니다.
Arne Jonas Warnke

어떤 경우에는 자연스럽지 않고 시계열과 같은 강력한 대안을 사용할 수 없습니다. 그래서 나는 그것이 "더 인기있는"것이 아니라 "일부 지역에서 더 인기있는"것으로 생각합니다.
Henry.L

13

m>1mm=1

m=30


이것을 게시하기 위해 여기에 왔습니다. 또한 : 확장 성과 적응성 때문에 FWER이 훨씬 더 새로운 FDR 방법보다 선호되는 상황은 없다고 확신합니다.
Alexis

13

대부분의 시대에 뒤 떨어진 관행은 아마도 통계가 가르치는 방식과 몇 가지 기본 수업을 수강 한 수많은 사람들이 분석을 수행한다는 사실에 기인합니다. 우리는 종종 표준 통계 아이디어와 절차를 교육적으로 이해하는 개념적 정교함이 증가하는 논리적 인 순서를 형성하기 때문에 가르칩니다 (참조, 어떻게 인구 변동을 알 수 있습니까? ). 나는 스스로 유죄입니다. 나는 때때로 통계 101과 102를 가르치고, '이것을하는 더 좋은 방법이 있지만,이 수업의 범위를 넘어선 것'이라고 끊임없이 말합니다. 입문 순서 (거의 모든 것)를 넘어 가지 않는 학생들에게는 기본적이지만 대체 된 전략이 남아 있습니다.

  1. 통계 101 예제의 경우 가장 일반적인 구식 관행은 몇 가지 가정을 테스트 한 다음 테스트가 중요하지 않기 때문에 전통적인 통계 분석을 실행하는 것입니다. 보다 현대적 / 고급 / 방어 가능한 접근 방식은 처음부터 해당 가정에 강력한 방법을 사용하는 것입니다. 자세한 내용은 다음을 참조하십시오.

  2. 통계 102 예제의 경우, 많은 모델링 관행이 수정되었습니다.

    • Yp
    • 변환Y
    • 고차 다항식을 사용하여 곡률 대 입방 스플라인 캡처
    • pR2
    • 반복 측정 데이터를 사용하면 연속 변수를 분류하여 rmANOVA를 사용하거나 선형 혼합 모델을 사용하여 여러 측정을 평균화 할 수 있습니다.
    • 기타.

이 모든 경우의 요점은 사람들이 입문 수업에서 먼저 배운 것을 수행하고 있다는 것입니다. 왜냐하면 그들은 더 진보되고 적절한 방법을 알지 못하기 때문입니다.


5

매우 흥미로운 예는 계량 경제학에서의 단위근 테스트 입니다. 시계열의 지연 다항식 (예 : (Augmented) Dickey Fuller Test 또는 KPSS test)에서 단위 근에 대해 또는 단위 근에 대해 테스트 할 수있는 선택이 많이 있지만, 베이지안 분석을 사용하면 문제를 완전히 피할 수 있습니다. . Sims는 1991 년의 단원 루터 이해 : 헬리콥터 투어 라는 제목의 도발적인 논문에서 이것을 지적했습니다 .

단위근 테스트는 유효하며 계량 경제학에서 사용됩니다. 나는 개인적으로 이것을 베이지안 관습에 적응하기를 꺼려하는 사람들에게 주로 기인하지만, 많은 보수적 인 계량 경제학자들은 세계에 대한 베이지안의 견해가 계량 경제 연구의 전제와 모순된다고 말함으로써 단위근 테스트의 관행을 방어합니다. 즉, 경제학자들은 세계를 일부 초 매개 변수에 의해 통제되는 임의의 매개 변수가 아닌 고정 된 매개 변수가있는 장소로 생각합니다.


5
베이지안 관행이 이러한 테스트를 우회하는 방법에 대한 간단한 토론에 관심이 있습니다. 다시 말해,이 주장에 대해 어떻게 주장하십니까?
Mike Hunter

논문을 읽은 지 오래되었다는 것을 인정해야하지만, 요점은 시계열의 베이지안 분석을 위해 평평한 것을 사용하면 표준 t- 값을 사용할 수 있다는 것입니다.
Jeremias K

5

고품질 통계 소프트웨어 시스템에 대한 라이센스 비용 지불 #아르 자형


1

가설 검정의 빈번한 영역에서 동등성 을 동시에 검정 하지 않고 차이에 대한 양측 검정을 가르치거나 수행 하는 것은 확증 편견에 대한 깊은 의지 입니다.

효과 크기를 신중하게 정의한 적절한 검정력 분석이이를 방지하고 거의 동일한 종류의 추론을 제공 할 수 있다는 점에서 약간의 뉘앙스가 있습니다. 한 절대 예컨대, 각 다중 회귀 분석의 각 변수에 대한 추정 된 계수하지만이위한 전력 분석 본적 이 결합 차이를 시험 및 동등성 시험 그렇게 간단하다 (즉 적합성 시험).


0

(견고한) 포아송 모델 대신 음 이항 모델을 사용하여 과대 산포가 있기 때문에 카운트 변수에 관심있는 매개 변수를 식별합니다.

참조로 참조하십시오 : https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

고정 효과의 경우 포아송이 더욱 강력하다는 증거는 다음과 같이 불쾌한 최근의 증거입니다. Wooldridge, JM,“일부 비선형 패널 데이터 모델의 무 배포 추정” 77–97.


-6

다음은 몇 가지 구식입니다.

  • 우리의 불완전한 샘플을 평가할 수있는 영원하고 고정적이며 움직이지 않는 이론적 에테르에는 단일 "진정한"인구가 있다는 신 플라톤 가정은 학습과 지식을 향상시키는 데 거의 도움이되지 않습니다.

  • Occam 's Razor 와 같은 명령에 내재 된 축소주의 는 시대와 일치하지 않습니다. 또는 "경쟁 가설 중 가정이 가장 적은 가설을 선택해야합니다."라고 요약 할 수 있습니다. 대안은 "에피쿠로스 의 다중 설명 원리 "를 포함하며, "두 개 이상의 이론이 데이터와 일치하는 경우 모든 것을 유지하십시오."라고 대략적으로 말합니다.

  • 전체 동료 검토 시스템은 필사적으로 정밀 검사가 필요합니다.

* 편집하다 *

  • 수천만 개의 기능을 포함하는 방대한 데이터로 인해 더 이상 변수 선택 단계가 필요하지 않습니다.

  • 또한 추론 통계는 의미가 없습니다.


의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.