파악하기 가장 어려운 통계 개념은 무엇입니까?


32

이것은 하나에 비슷한 질문입니다 여기에 ,하지만 서로 다른만큼 내가 가치가 묻는 것으로 생각합니다.

나는 내가 스타터로 생각할 것이라고 생각했는데, 가장 이해하기 어려운 것 중 하나는 생각이다.

광산은 확률빈도 의 차이 입니다. 하나는 "현실 지식"(확률) 수준에 있고 다른 하나는 "실제 자체"(빈도) 수준에 있습니다. 너무 많이 생각하면 거의 항상 혼란스러워합니다.

에드윈 제인 즈 (Edwin Jaynes Coins)는 이러한 것들을 혼합하는 것을 설명하기 위해 "마음 투사 오류"라는 용어를 만들었습니다.

파악하기 어려운 다른 개념에 대한 생각이 있습니까?


(나는 이것을 대답으로 넣을만큼 충분히 알지 못하므로 주석을 추가한다.) 나는 항상 PI가 통계 방정식에서 자라는 것이 이상하다고 생각했다. PI가 통계와 어떤 관련이 있습니까? :)
Monica Monica 복원-안녕 SE

2
나는 (놀람으로) 동의합니다-나는 많은 수학적 분석에서 가 나타나는 것으로 생각합니다 . Latex 명령을 사용하여 $ 기호 안에 \ piπ 를 쓸 수 있습니다 . 위키 페이지를 사용하여 en.wikibooks.org/wiki/LaTeX/Mathematics 구문을 얻습니다 . 또 다른 트릭은이 사이트에서 볼 수있는 방정식을 "오른쪽 클릭"하고 "소스 표시"를 선택하여 사용 된 명령을 얻는 것입니다. ππ\pi
chanceislogic

@Wiki 당신 이 줄의 길이를 측정하는 것에서 원의 길이를 측정 할 때 자르는 것을 받아들이면 , 떨어질 확률을 측정하는 동안 왜 그것이 나타나지 않을지 알 수 없습니다 한 조각으로 떨어질 확률을 측정하기 위해 세그먼트에서? π
로빈 지라드

@Wiki 삼각 함수 (사인, 코사인, 탄젠트 등)가있을 때마다 팝업 이 발생할 위험이 있습니다. 함수를 도출 할 때마다 실제로 접선을 찾는다는 것을 기억하십시오. 놀라운 것은 π 자주 나타나지 않는다는 것 입니다. ππ
Carlos Accioly

@Carlos 의 유병률 은 대부분 2 미터법을 사용 하여 n-sphere로 이어진다 고 생각합니다. 같은 맥락에서, 나는 그것이 분석에 의한 유병률이 e 인 것으로 기대할 것이다 . 2π2e
sesqu

답변:


31

어떤 이유로 사람들은 p- 값이 실제로 무엇인지 파악하기가 어렵습니다.


3
@ shabbychef : 대부분의 사람들은 최악의 방법, 즉 제 1 종 오류를 일으킬 가능성을 파악합니다 .
suncoolsu

2
나는 그것이 주로 p- 값이 클래스에서 어떻게 설명되는지와 관련이 있다고 생각합니다 (즉, 빠른 정의를 제공하고 어떤 p- 값이
아닌지

나는 이것이 주로 그것이 도입되는 방법과 관련이 있다고 생각합니다. 저에게는 고전 가설 검정에 "추가 기능"이있어서 가설 검정을 수행하는 또 다른 방법 인 것처럼 보입니다. 다른 문제는 일반적으로 모든 것이 "잘 작동하는"정규 분포에 대해서만 가르쳐야한다는 것입니다 (예 : p- 값 정규 평균을 검정하는 증거의 척도입니다). p- 값을 일반화하는 것은 일반화를 안내 할 특정 원칙이 없기 때문에 쉽지 않습니다 (예 : p- 값이 샘플 크기 및 다중 비교에 따라 어떻게 달라야하는지에 대한 일반적인 합의는 없습니다)
확률

@shabbychef +1이지만 학생은 종종 p- 값에 어려움을 겪습니다 (거의 테스트 개념이 이진 결정 프로세스보다 약간 미묘하고 "함수 반전"을 이해하기 쉽지 않기 때문에). "어떤 이유로"라고 말할 때 사람들이 왜 어려움을 겪고 있는지는 확실하지 않습니까? 추신 : 가능하다면이 사이트에서 "최고의 답변"과 "p- 값에 대한 대화"사이의 관계에 대한 통계를 작성하려고합니다. :). 또한 파악하기 어려운 가장 어려운 통계적 개념이 가장 공감할 수 있는지 스스로에게 묻습니다. (잡기 어려운 경우 ... :))
Robin girard

1
@eduardo-네, 작은 p- 값은 귀무 가설을 의심하기에 충분하지만 대안 과 완전히 분리 되어 계산 됩니다 . p- 값만 사용하면 대안이 지정되지 않았기 때문에 공식적으로 "거부"할 수 없습니다 . 공식적으로 H 0 을 기각하는 경우 H 0 이 참 이라는 가정을 기반으로 한 계산도 거부해야 합니다. 이는이 가정에서 도출 된 p- 값의 계산을 거부해야 함을 의미합니다. 그러나 일관성있게 추론 할 수있는 유일한 방법입니다 ). H0H0H0
chanceislogic

23

shabbychef의 답변과 마찬가지로 잦은 통계에서 신뢰 구간의 의미를 이해하기 어렵습니다. 가장 큰 장애물은 신뢰 구간이 우리가 대답하고 싶은 질문에 대답하지 못한다는 것입니다. "진정한 값이이 특정 구간 내에있을 가능성은 얼마입니까?" 대신 "이러한 방식으로 생성 된 무작위로 선택된 간격에 실제 매개 변수가 포함되어있을 가능성은 얼마입니까?" 후자는 분명히 덜 만족합니다.


1
신뢰 구간에 대해 더 많이 생각할수록 개념적 수준에서 어떤 종류의 질문에 대답 할 수 없는지 "진정한 값이주기 내에있을 수 있습니다. 지식". "2010 년의 평균 수입이 10,000에서 50,000 사이 일 가능성은 얼마입니까 (정보에 따라)?" 신뢰 구간 이론이이 질문에 대한 답을 줄 수 있다고 생각하지 않습니다.
chanceislogic


13

조건부 확률은 아마도 일상 경험에서 대부분의 실수 로 이어질 것입니다. 물론 이해하기에는 더 어려운 개념들이 많이 있지만 사람들은 대개 그것들에 대해 걱정할 필요가 없습니다.


+1; 즐겨 찾기 또는 현재 예제를 추가 할 수 있습니까?
데니스

1
우선 : P (질병이 양성)! = P (질병이 양성)
xmjx

9

나는 모든 과학자들이이 기본 요점을 이해하고 있다고 생각합니다. 모든 단계가 사전에 계획된 경우 통계 분석 결과를 액면가로 해석하는 것만 가능합니다. 구체적으로 :

  • 샘플 크기를 미리 선택해야합니다. 더 많은 주제가 추가 될 때 데이터를 계속 분석하여 결과가 좋아 보이는 것을 멈추는 것은 좋지 않습니다.
  • 데이터를 정규화하거나 특이 치를 제외하는 데 사용되는 방법도 미리 결정해야합니다. 원하는 결과를 찾을 때까지 다양한 데이터 하위 집합을 분석하는 것은 좋지 않습니다.
  • 그리고 마지막으로 통계적 방법은 사전에 결정되어야합니다. 모수 적 방법과 비모수 적 방법을 통해 데이터를 분석하고 원하는 결과를 선택하는 것은 좋지 않습니다.

탐색 방법은 탐색에 유용 할 수 있습니다. 그러나 정기적 인 통계 테스트를 수행하고 일반적인 방법으로 결과를 해석 할 수 없습니다.


5
John Tukey는 en.wikipedia.org/wiki/Exploratory_data_analysis ; o)에 동의하지 않을 것입니다
Dikran Marsupial

3
나는 여기에 부분적으로 동의하지 않을 것입니다. 사람들이 놓친 경고는 이러한 종류의 문제에 대해 적절한 컨디셔닝 작업을 무시 하기 쉽다는 것 입니다. 이러한 각 작업은 추론의 조건을 변경하므로 적용 조건 (따라서 일반성)을 변경합니다. 이는 잘 정의 된 모델과 질문이 구성된 "확인 분석"에만 적용 할 수 있습니다. 탐색 단계에서는 명확한 질문에 대답하지 않고 모델을 구축하고 데이터에 대한 가설을 세웁니다.
chanceislogic

Dikran의 의견과 확률 론적 의견을 고려하기 위해 답변을 약간 수정했습니다. 감사.
Harvey Motulsky

1
나를 위해, "제외 아웃 라이어는"명확하지 않다 잘못 대답에서 알 수 있듯이. 예를 들어 특정 범위의 반응에서 관계에만 관심이있을 수 있으며 특이 치를 제외하면 실제로 이러한 종류의 분석에 도움이됩니다. 예를 들어, "중산층"소득을 모델링하려면 수퍼 리치 및 빈곤 한 특이 치를 제외하는 것이 좋습니다. 당신의 추론의 틀 안에있는 특이 치들 (예를 들어, "이상한"중산층 관측들)은 당신의 의견이 적용되었습니다
확률 론적

2
궁극적으로 초기 답변에서 제기 된 문제의 실제 문제는 p- 값이 (적어도 부분적으로) 무효화된다는 것입니다. 관찰 된 효과의 정량화에 관심이 있다면, 위의 모든 것을 불명예로 수행 할 수 있어야합니다.
russellpierce

9

혀에 단단히 혀 있음 : 빈번한 사람들에게는 베이지안 확률 개념; 베이지안의 경우, 잦은 확률 개념. ;영형)

둘 다 물론 장점이 있지만 한 프레임 워크가 다른 프레임 워크를 제대로 이해하지 못하면 왜 어떤 프레임 워크가 흥미롭고 / 유용하고 / 유효한지 이해하기가 매우 어려울 수 있습니다. 교차 검증은 질문을하고 답변을 듣는 것이 좋은 방법입니다.


2
나는 내가 기억하기 위해 사용하는 규칙 : 확률을 사용하여 빈도를 예측하십시오. 빈도가 관찰되면이를 사용하여 할당 한 확률을 평가하십시오. 불행히도 혼란스러운 것은 종종 할당 할 확률 이 관찰 한 빈도와 같다는 것 입니다. 내가 항상 이상하게 생각하는 것 중 하나는 왜 자주 사람들 이 단어 확률을 사용하는 것입니까? "사건의 확률"대신 "사건의 빈도"라는 구절이 사용 되었으면 개념을 이해하기가 쉽지 않습니까?
probabilityislogic

p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi

8

내 개인적인 경험에서, 우연 의 개념은 특히 통계가가 아닌 사람들에게 상당히 많은 자극을 줄 수 있습니다. Wikipedia가 말했듯이, 그것은 확률 개념과 혼동되는 경우가 많습니다. 정확하게는 정확하지 않습니다.



6

다른 분포는 실제로 사용되는 방법 외에 무엇을 나타냅니다.


3
이것은 통계 101 이후에 가장 산만했던 질문이었습니다. 나는 당면한 주제와 관련된 "속성"을 넘어서는 동기가없는 많은 분포를 보게 될 것입니다. 무엇을 나타내는 지 알아내는 데는 시간이 오래 걸렸습니다.
sesqu

1
최대 엔트로피 "생각"은 분포가 무엇인지, 즉 지식 상태 (또는 무언가에 대한 불확실성에 대한 설명)를 이해하는 데 도움이되는 방법 중 하나입니다. 이것은 모든 상황에서 나에게 의미가있는 유일한 정의입니다
chanceislogic

벤 볼커 (Ben Bolker)는 R
David LeBauer

5

나는 그 질문이 두 가지 방식으로 해석 될 수 있다고 생각하며, 이는 매우 다른 대답을 줄 것입니다.

1) 통계를 공부하는 사람들, 특히 상대적으로 진보 된 수준에서 이해하기 가장 어려운 개념은 무엇입니까?

2) 대부분의 사람들이 어떤 통계 개념을 오해합니까?

1) 나는 대답을 전혀 모른다. 측정 이론에서 나온 것입니까? 어떤 유형의 통합? 모르겠어요

2) p- 값의 경우, 손을 내립니다.


측정 이론은 통계 분야도 어렵지 않습니다. 일부 통합 유형은 어렵지만 다시 한 번 통계가 아닙니다.
pyon

5

바이에른의 전통에 대한 신뢰 구간은 어렵다.


5

나는 사람들이 처음으로 거의 모든 것에서 보트를 그리워한다고 생각합니다. 대부분의 학생들이 이해하지 못하는 것은 대개 표본을 기준으로 매개 변수를 추정한다는 것입니다. 표본 통계량과 모집단 모수의 차이를 모릅니다. 만약 당신이이 아이디어들을 그들의 머리에 beat다면, 다른 것들이 조금 더 쉽게 따라야합니다. 나는 대부분의 학생들이 CLT의 핵심을 이해하지 못한다고 확신합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.