잘못 사용 된 통계 용어는 무엇입니까?


103

통계는 어디에나 있습니다. 그러나 통계 용어의 일반적인 사용법은 종종 불분명합니다.

확률확률 이라는 용어 는 잘 정의되고 다른 수학적 표현에도 불구하고 일반 영어로 상호 교환 가능하게 사용됩니다.

가능성 이라는 용어를 확률 과 분리하지 않으면 의사는 긍정적 유방 조영술을 통해 유방암의 확률을 정량화하려는 의사를 혼란스럽게 합니다. 나는 이것을 할 수 없습니다. 내 딸을 테스트해야합니다. 그녀는 약을 공부하고 있습니다.”

마찬가지로 확산의 사용이다 상관 대신 협회 . 또는 인과 관계를 암시하는 상관 관계 .

Al Gore의 유명한 다큐멘터리 An Inconvenient Truth 에서 슬라이드 는 아이스 코어 와 온도 의 상관 관계 를 보여 주므로 토론에서 원인을 입증하는 더 많은 기술적 작업이 남습니다.CO2

여기에 이미지 설명을 입력하십시오

질문 : 수학적으로 엄격하지 않은 상태에서 해석 할 때 해석에 문제가되는 통계 용어는 무엇입니까?


4
평신도의 확률 대 확률은 나에게 문제가되지 않습니다. 왜냐하면 평신도는 계산하지 않을 것이기 때문에 값이 낮거나 높다고 말하고 두 사람이 직접적으로 상관되어 있기 때문입니다.
Mehrdad

@Mehrdad 동의합니다. 사실, 이것은 요점입니다 ... 통계의 범위 내에서 채택되고 기술 된이 단어들의 오용으로 인해 문제가 발생하는 상황이 있습니까? 예를 들어 기후 변화에 대한 중요한 연구 기관이 있다는 것이 분명하지만, 많은 다른 상황에서 상관 관계가 원인과 같다고 주장함으로써 허위 주장을 할 수 있습니다. 승산과 확률의 경우 둘 중 하나를 다른 것으로 변환 할 수 있으므로 유일한 위험은 베팅을 오해하는 것입니다.
Antoni Parellada

3
@Mehrdad 확률에 대한 요점은 흥미로운 것이지만, 나는 그것이 눈을 맞추는 것보다 더 복잡하다고 생각합니다. 평신도가 확률에 대해 이야기 할 때, 그들은 보통 도박 확률을 의미하며, 이는 종종 "홀수 대비"형식으로 표현됩니다. 따라서 대부분의 사람들에게 친숙한 시스템 에서는 확률이 높을 수록 확률이 낮지 만 통계가 높은 확률은 높은 확률을 갖습니다 . 이 때문에 혼란을 확실히 익 :도에 대한 우리의 게시물을 참조 확율은 단순 제작
좀 벌레

5
통계에 의해 적용되고 엄격한 기술적 정의가 제공되기 전에 이러한 용어 중 일부는 영어로 이미 존재한다는 것을 명심할 가치가 있습니다. 단어를 가져 와서 의미를 바꾸고, 다른 사람들이 단지 기술적이지 않은 오래된 정의와 함께 그것을 사용할 때 잘못 사용했다고 비난하는 것은 약간의 응축입니다.
RM

테스트가 미리 계획되어 있어도 테스트를 "포스트 홉 (post hoc)"이라고 부르는 것을 정말로 좋아하지 않습니다. 나는 이것이 통계 패키지로 시작했다고 생각하지만 지금은 널리 퍼져 있습니다.
David Lane

답변:


101

언어의 변화에 ​​맞서 싸우는 것은 무의미 할 수 있습니다. 그러나

매개 변수변수를 의미하지 않습니다

이 경우이 의미를 가진 용어를 처음 사용한 RA Fisher로 정확하게 시작되는 고전 통계에서 모수 는 추정 할 수없는 알 수없는 상수, 즉 모집단 평균 또는 상관 관계입니다. 수학에서는 곡선이 파라 메트릭 방식으로 제공 될 때와 같이 관련이 있지만 동일한 의미는 없습니다. 많은 과학에서 매개 변수 는 경우에 따라 측정 (수학적 의미로 밀도가 높은 용어), 속성 또는 변수 (길이 또는 전도도 또는 다공성 또는 미덕)를 나타내는 또 다른 단어 일뿐입니다. 당연히 개인의 길이나 미덕은 측정되기 전에 알 수 없습니다. 그러나 통계적으로 생각하는 사람들은 그러한 일련의 측정에 사용함으로써 겁을 먹을 수 있습니다. 보통 또는 저속한 말로, 매개 변수(거의 항상 복수형) 종종 경계 와의 원래의 혼동에서 비롯된 개인적인 관계 나 정치적 정책과 같은 무언가의 한계를 의미합니다 . 사전 확률이 높으면 베이지안은 자신의 사용법 (@conjugateprior에 고마움을 표함)으로 스스로 대화 할 것으로 추정됩니다.

비뚤어진 것은 치우친 것을 의미하지 않습니다

1 세기 이상 동안, 왜도는 그래픽으로 평가되거나, 수치 적으로 측정되거나, 이론적으로 믿음이나 희망의 문제로 추정되는지에 관계없이 분포의 비대칭 성을 나타내는 특정 통계적 의미를 가졌습니다. 훨씬 더 길거나 추측 할 수 있듯이, 편견은 평균이 잘못되었다는 것을 의미했습니다. 진실을 알면 참 또는 올바른 값을 의미하는 한 체계적인 오류로 정량화 할 수 있습니다. 평범한 언어로 치우친 것은 뒤틀 리거나 왜곡되는 상식을 가지므로 부정확하고 틀리기도합니다. 그 의미는 (최근에 주목 한 한) 통계 토론으로 다시 필터링되기 시작했기 때문에, 왜도의 원래 의미는 흐려 지거나 잠길 위험이 있습니다.

상관 관계동의를 의미하지 않습니다

상관 관계는 통계에서 몇 가지 정확한 의미를 끌어 냈으며, 이는 일반적으로 정확한 의미에서 완벽한 이변 량 관계에 대한 아이디어를 가지고 있습니다. 주요 사례는 선형 및 모노톤 관계입니다. 통계 토론에서도 거의 모든 종류의 관계 또는 연관성을 의미하는 것으로 종종 희석됩니다. 상관 관계가 반드시 일치를 의미하지는 않습니다. 따라서 는 인 한 피어슨 상관 관계는 또는 의미 하지만 계약 는 매우 엄격한 조건 .y=a+bx11b0y=xa=0,b=1

독특한 것은 다른 것을 의미하지는 않는다

독특한 데이터 값에 대해 unique 로 이야기하는 것이 일반적 이지만, unique 는 한 번만 발생하는 의미로 유지하는 것이 이상적입니다. 내 생각에 일부 비난은 유닉스 유틸리티 uniq와 그 모방 자 에서 비롯된 것으로, 반복되는 값을 각 값이 실제로 고유 한 세트로 줄입니다. 이 추측에서 사용법은 프로그램의 입력과 출력을 둥글게 만듭니다. 우리가 얘기하는 경우 (반대로, 중복 데이터, 우리는 거의 정확하게 두 번 발생 doubletons에 자신을 제한하지 않는다. 용어 복제를언어 적으로 더 의미가 있지만 실험에서 의도적으로 대조군의 복제를 위해 선점되었다; 결과적인 응답 값은 일반적으로 전혀 동일하지 않으므로 많은 부분이 중요합니다.)

거의 반복되지 않는 샘플

통계에서, 샘플은 여러 값을 포함하고 날조의 모든 종류의 우리의 습관적인 용어입니다 시뮬레이션 제외하고, 반복 샘플링은 높은 이론적 미덕이지만, 하나는 거의 실행되지 인 실리코 . 많은 과학에서 표본은 물, 토양, 퇴적물, 암석, 혈액, 조직 또는 매력에서 양성에 이르기까지 다양한 물질로 이루어진 덩어리, 덩어리 또는 덩어리로 구성된 단일 대상입니다. 예외적 인 경우가 아니라면, 많은 시료를 채취하는 것이 심각한 분석에 필수적 일 수 있습니다. 여기서 모든 분야의 용어는 사람들에게 완벽한 의미를 갖지만 때로는 번역이 필요합니다.

오류 가 일반적으로 실수를 의미하지는 않습니다. Harold Jeffreys가 지적했듯이, 1 차적인 의미는 잘못된 것이 아니라 잘못되었습니다.

그럼에도 불구하고 우리는 우리 자신의 죄나 용어에 대해 조심해야합니다.

회귀 가 거꾸로되지 않습니다

고정 은 고정 또는 고정을 의미하지 않습니다

자신감 은 다른 사람의 정신적 또는 심리적 상태와 관련이 없습니다

의의 는 때로 일상의 의미를 갖습니다

정확성 은 종종 문제에 적합한 것보다는 편리하고 다루기 쉬운 솔루션이나 계산을 언급하는 명예 용어입니다.

오른쪽 기울어 많은에 분포 기울어 왼쪽 봐 반대의 경우도 마찬가지

로그 정규은 그것이 보통의 거듭 제곱 있기 때문에 소위된다

그러나 로그 정규는 정규보다 더 정상입니다

가우스는 드 무 아브 르에 의해 발견됐다

푸 아송는 발견되지 않았습니다 포아송을 혼자 포아송 회귀하자

부트 스트랩은 당신의 신발에 도움이되지 않습니다

잭나이프는 잘라하지 않습니다

첨도 는 건강 상태가 아닙니다

줄기-잎 그림 은 식물을 의미하지 않습니다

더미 변수는 유용하지 않거나 무의미한 바보

지구상의 (또는 다른 곳에서) 누가 이분산성불평등 한 변동성 보다 실제로 선호되는 용어 라고 생각 합니까?

로버 스트는 이제 서로 다른 그룹에 대해 적어도 두 가지 주요 기술적 의미를 지니고 있으며 기술 토론에서도 자주 사용하지 못하고 "잘 행동한다고 ​​주장하는"것과 같은 의미를 갖지 않습니다.

IV는 이제 다른 그룹에 대해 적어도 두 가지 주요 의미를 갖습니다.

factor는 이제 다른 그룹에 대해 적어도 두 가지 주요 의미를 갖습니다.

표준화표준화 는 셀 수없이 많은 의미를 갖습니다 (실제로 표준화해야 함).

그래프를 기술 수단 수직 변수수평 변수를 그 반대를 의미하지 않는,

및 (마지막하지만 최소한, 구를 화폐로 주조하는) 통계는 적어도 세 가지 의미가있다.

노트:

  1. 반대의 모습에도 불구하고, 이것은 좋은 진지한 질문이라고 생각합니다.

  2. 패션 변화. 20 세기에 들어 서면 많은 사람들 (이름, 팩 드릴은 없지만 칼 피어슨을 언급 할 수 있음)은 그리스어 및 라틴어 사전에 도달하여 용어를 발명 할 수있을 것 같습니다. (그에게 산점도를 인정하지 않는 것은 불공평하다 .) 그러나 RA 피셔는 분산 , 충분 성 , 효율성가능성을 포함하여 기존의 많은 영어 단어를 가로 채었다 . 더 최근에 JW Tukey는 가정적인 용어를 사용하는 데는 능숙했지만 , 슬럼프악당 이 따라 잡지 못한 고통을 느끼는 사람은 거의 없습니다.

  3. 한 의견은 "삶은 [...] 곱하기보다는 곱셈이다 : 로그 정규 분포는 정규보다 더 정규적"이라고 회상합니다. 곧. 1962. Bloggins의 작업 규칙. IJ (Ed.) 에서 과학자는 다음과 같이 추측한다 : 부분적으로 구운 아이디어의 선집. 런던 : Heinemann, 212-213 (p.213의 인용문).


의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
whuber

이분산성 은 고양이 상자를 완전히 흔든다! "동일한 변동성?" [Phuagh!]) (+1 매우 그렇지 않으면;)
Alexis

1
회귀 테스트 는 소프트웨어 개발과 관련하여 자주 사용 된다는 점을 추가 할 가치가 있습니다 .
Konrad

@Konrad 흥미롭지 만 (내가 틀렸다면 나를 교정하십시오) (a) 단어의 오용이 아니며 (b) 통계적 의미가없는 단어입니다.
Nick Cox

@NickCox 맞습니다.
Konrad

33

내가 만난 것들 중 일부 :

  1. 중요성 수준과 CI 범위 확률을 상호 교환 가능하게하여 사람들이 "95 % 중요성"이라고 말하는 것과 같은 일을하게합니다.

    더 나쁜 것은 그러한 실수를하는 사람들이이를 뒷받침하는 강의 노트 또는 심지어 교과서를 지적 할 때입니다. 다시 말해서 실수는 그들의 실수가 아니라 백배 또는 수천 배로 복잡해지고 있으며, 잘못 이해하더라도 잘못을 피하기 위해 실제로 오류를 반복해야 할 수도 있습니다.]

  2. 또한 "의미"가 어떻게 특정 가설 / 질문 외부에 존재한다고 생각하는 일반적인 경향이 있습니다 (어떤 질문이 다루어 질지에 대한 명확한 개념없이 "내 데이터가 중요합니까"와 같은 질문으로 이어짐). [관련 문제는 "이 데이터에 어떤 테스트를 사용해야합니까?"입니다. 마치 답이되는 질문이 아니라 데이터 인 것처럼 분석 선택의 원동력입니다. (연구의 "디자인"이 사용 된 특정 테스트에 영향을 줄 수 있지만 관심있는 질문이 더 중요합니다. 예를 들어, 세 그룹을 사용할 수 있지만 관심있는 질문은 두 그룹의 비교에만 해당됩니다. 세 가지가 있다고해서 관심있는 두 그룹을 똑바로 비교하지 않고 단방향 유형 분석을 강요하지는 않습니다. 선택한 분석 결과가 데이터가 보여주는 것에서 파생되지 않는 한. 이상적으로는 데이터를 분석하기보다는 데이터를 갖기 전에 질문과 분석을 계획하고 어떤 스틱을 볼 것인지, "어떤 데이터에 어떤 테스트를 사용해야합니까?"와 같은 사후 분석 질문이 있는지 확인하십시오. -이어지는 경향이 있습니다.)

  3. 때때로 p- 값의 보완이 일종의 "신뢰성"또는 대안의 "확률"로 언급되는 경향이 있습니다.

  4. "비모수 적 데이터"; 불행히도 두 권의 책에서 발견되는 또 다른 책 (그리고 슬프게도, 일반적인 오류를 수정하려고하는 기사에서) 이것은 자동 생성 된 주석의 짧은 목록 ( "데이터는 매개 변수도 아니며 비모수; 모델이나 기법에 적용되는 형용사입니다 ... ") (이 특정 버그 베어를 상기시켜 준 Nick Cox에게 감사드립니다)

    일반적으로 의도 된 것은 "비정규 데이터"이지만 파라 메트릭은 정상을 의미하지 않으며 대략적인 정규성을 갖는 것이 파라 메트릭 절차가 필요하다는 것을 의미하지는 않습니다. 마찬가지로 비정규 성이 비모수 적 절차가 필요하다는 것을 의미하지는 않습니다. 때때로 "의도 데이터"또는 "명목 데이터"가 의도되지만 유한 매개 변수 모델이 부적절하다는 것을 의미하지는 않습니다.

  5. "선형 모델"에서 "선형"이라는 용어를 "일반화 선형 모델"에서 사용하는 것과 일치하지 않는 방식으로 "선형 모델"에서 "선형"의 의미를 오해하는 일반적인 경향이 있습니다. 이것은 부분적으로 우리가 용어를 사용하는 방식의 결함입니다.

  6. 평균-마이너스-중앙 종류의 왜도를 세 번째 모멘트 왜 도와 병합하고 대칭으로 하나 또는 둘 다에 0을 부어 넣는 것. 두 가지 오류는 일부 특정 응용 분야에서 널리 사용되는 기본 텍스트에서 자주 발견됩니다. [제로 스큐 니스 및 제로 초과 첨도를 정규성을 암시하는 것으로 처리하는 데 관련된 오류가 있습니다]

  7. 이것은 매우 일반적이며 (특정 프로그램의 노력으로 인해) 더 이상 오류라고 부르기가 점점 어려워지고 있습니다.-과도한 첨도를 단순히 "쿠 르토 시스"라고 부릅니다. 통신 문제로 이어질 수있는 실수.


2
+1. 나는이 목록에서 나의 것보다 더 나은 그로테스크 한 "비모수 적 데이터"를 상기시키고 싶다. 과도한 첨도는 원유 첨도의 추악한 형제입니다.
Nick Cox

@ Nick 감사합니다, 나는 "내가 여기에 속한다는 것을 정말로 귀찮게하는 다른 것이있다"고 말하는 내 목록을보고 여기에 앉아 있습니다. 그게 하나입니다.
Glen_b

3
또 다른 하나는 "통계 테스트"가 너무 광범위하게 확장되어 시작 질문이됩니다. 데이터에 어떤 테스트를 적용해야합니까? 종종 "학생의 t", "Mann-Whitney"또는 "chi-square"형식의 단일 답변이있을 것이라는 믿음에서. 내 대답이 더 일반적으로, 아마도 전혀 그렇지 않거나, 우리는 당신의 데이터를주의 깊게보고 우리가 그것에 대해 생각하기 전에 실제 질문이 무엇인지 논의해야합니다.
Nick Cox

@nick 저것은 나의 아이템 2와 밀접한 관련이있다. 나는 그것을 확장시키는 좋은 방법이 있는지 궁금하다.
Glen_b

1
많은 통계 텍스트 (나타나는 것으로 보이는)가 그러한 사고를 장려한다고 우려합니다.
Nick Cox

31

" 데이터 "는 복수 입니다. 단수는 "데이텀"입니다.


2
당신은 정말 데이텀에 대해 이야기합니까? 더 일반적으로, 그 점은 ... 그 가치는 ... 그 관측은 ... 적어도 여기에 관한 것입니다.
닉 콕스

5
데이터는 또한 단일 안드로이드이며, 그는 데이터에 기반한 데이터 결론에 도달하는 것으로 관찰되는 인간에 대한 데이터를 동화 시키며 종종 유머러스 한 영향을 미칩니다.
Matthew Drury

2
당신은 그것을 먼 길을 트레킹해야합니다.
Nick Cox

5
복수 데이터 는 동사의 동의 일뿐만 아니라 "데이터는"이 아니라 "데이터는"이 아니라 "많은 데이터"보다는 "많은 데이터"가 아닌 "데이터가 적은"보다는 "더 적은 데이터"가된다. 따라서 일관되게 잃어버린 원인으로 보이는 사람은 거의 없습니다.
Scortchi

5
몇 년 (수십 년)에이 싸움에 도전했지만 (나의 라틴어 선생님들이 기뻐할 것입니다), @Scortchi와 비슷한 견해를 보았습니다. 그러나 가능한 한 StataCorp 사례에 영향을받는 단어 데이터 세트 를 사용하려고합니다 . 그것은 몇 가지 어려움을 해결합니다.
Nick Cox

14

엄밀히 통계적인 용어는 아니지만, 내 생성 을 퇴직시키기 위해 투표합니다 . 그것은 모든 사람들이 정말로하고 싶어 할 때, 역효과 원인에서부터 혼란과 선택과 충돌 바이어스에 이르기까지 모든 것을 지칭하는데 사용됩니다.


의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
Glen_b

13

"평균에 대한 회귀"는 특정 개수의 iid 샘플이 예상 값 미만으로 관찰 된 경우 다음 iid 샘플이 예상 값보다 높을 가능성이 있음을 의미하지는 않습니다.


3
+1 중요합니다. 주목할만한 사람들은 이것으로 인해 혼란스러워했습니다. 예를 들어, 피터 번스타인 (Peter Bernstein)의 위험 분석에 관한 인기있는 저서 , 신들에 대하여 . 여러 가지 방법으로 평균에 대한 회귀 분석을 특성화합니다. 단 하나도 정확하지 않습니다.
whuber

10

퍼센트 대 퍼센트 포인트 : 무언가가 1 %에서 2 %로 증가하면 100 % 증가합니다. 또는 1 % 포인트 증가했다고 말할 수 있습니다.

증가율이 1 %라고 말하면 매우 오해의 소지가 있습니다.


7

명확하게 표시되지 않은 약어는 실제 문제입니다. 예를 들어 GLM과 같은 것을 볼 수 있으며 일반 선형 모델 또는 일반 선형 모델을 의미하는 경우 어디에도 지정되지 않습니다. 일단 상황에 대해 파고 들고 나면 참조되는 것을 알아낼 수 있지만 통계 모델에 대해 배우기 시작한 학생들에게는 특히 문제가됩니다.

이것의 또 다른 예는 IV입니다. 이것이 도구 변수 또는 독립 변수를 의미합니까? 종종 상황을 조사하기 전까지는 명확하지 않습니다.

내가 혼란스럽게 생각하는 것은 "변조 자"와 "상호 작용"입니다. 또한 인구 (일반 인구와 마찬가지로)와 관심 인구는 명확하지 않으면 신입생을 혼동하는 것으로 보입니다.


5
또한 GLM이 기계 학습 군중의 일부에서 "글로벌 선형 모델"을 의미하는 데 사용되는 것을 보았습니다. 이미 과부하 상태 인 용어에 혼란을 더하기 위해
Glen_b

1
나는이 답변 / 관찰을 부분적으로지지합니다. GzLM (generalized linear model)과 같이 "Generalized"(무엇이든)가 G가 아닌 Gz로 더 잘 축약되어야한다고 생각합니다.
ttnphns

2
@ ttnphns : 우리 중 일부 는 s로 일반화 쓰기
Henry

@ttnphns가 궁금합니다.이 답변의 어떤 부분을 지원하지 않으며 왜 그런가요? 내가 뭔가를 잘못 이해했을 가능성이 높으므로 더 제공 할 것이 있으면 더 알고 싶습니다. 감사!
Stats 학생

1
허, IV는 체외에서 의미한다고 생각했습니다. = P
Mehrdad

7

일상 언어에서 일반적으로 사용되는 것 :

평균

평균적인 사람, 중간 정도, 모드 및 예상되는 값은 같은 것 같습니다. 그들은 근본적인 정규 분포가 있다는 무의식과 무의미한 가정으로 점 추정을하는 자연스러운 경향이 있습니다. 그리고 아주 작은 분산에 대한 무의식적 가정. 그러한 추정 1)이 존재하고 2) 그들에게 매우 유용 할 것이라는 믿음은 그들이 실제로 어떤 특정 예측 자로 받아 들일 수 있기 때문에 매우 깊이 뿌리 내리고 있기 때문에 기본적으로 다른 방법으로 설득하는 것은 불가능합니다.

실제 예를 들어, "평균 감자 크기는 얼마입니까?" 감자를 넣고 매번 완벽하게 나옵니다. "그러한 숫자가 없다"고 말한 것에 대해 화가납니다. 슬프게도 수프를 만드는 것보다 스테이크가 훨씬 높은 상황에서 발생합니다.


3
조금 과장된 것 같습니다. 예를 들어, 수십억의 사람들이 아니라면 수백만의 사람들이 평균적으로 스포츠를하는 데 어려움이 거의없는 것 같습니다.
Nick Cox

1
@NickCox 확실히 상황에 따라 다릅니다. 특히 주어진 데이터에 대한 산술 평균 계산은 문제가되지 않습니다. 나는 내가 포인트 추정이 필요하고 "평균"이 매우 정확한 것으로 가정하는 경우에 특히 문제를 보았다. 또한이 "평균"을 평균으로 계산한다고 가정하지만 평균의 의미를 설명하도록 요청하면 대략적으로 모드를 설명합니다.
rumtscho

@rumtscho, 맞습니다. Joe Average는 평균을 모드 또는 일반적인 것으로 생각할 수 있습니다.
Mark L. Stone

사람들이 영국의 "평균"주택 가격에 대해 이야기 할 때, 그들이 사용하고있는 평균의 유형이나 개요가 배제되었는지는 말할 수 없습니다.
Ian Ringrose

1
다중 모달 분포에 대해 평균을 계산할 수 없다는 말은 없으며, 종종 분포를 설명하기위한 가장 큰 척도는 아닙니다. 또한 통계학 자의 이미지가 모든 사람들에게 "단어 평균이 무엇을 의미하는지 모른다"고 말하면 큰 도움이 될 것입니다. 그런 다음 사전 정의를 가리킬 때 "음, 사전도 없습니다!"
Cliff AB

7

첨도는 "말하기"를 측정하지 않습니다.

Z4|Z||Z|

* 3 빼기; 이 점과 차이가 없습니다.


1
ZZ

1
나는 그리스어 키프로스 통계학 교수가 있는데, 그리스어로 렙 토쿠 르틱은 "좁은 어깨"또는 "허크 백"을 의미한다고 가르쳤다. 따라서, leptokurtic 분포 (예를 들면, 라플라스 또는 이중 지수)을 갖고 낮은 질량 과 끝 부분에 상응하게 더 질량 - 그 "숄더"영역에서 (동일한 분산) 가우스 이하인. 반대로, 표절 분포 (예를 들어, 유니폼)는 어깨 보다 질량많고 머리와 꼬리 부분의 질량은 정상보다 작습니다.
Mico

2
단어에 대한 좋은 설명이지만 실제로 Pearson이 개발 한 첨도 통계와는 아무런 관련이 없습니다. 피어슨 (Pearson)은 잘못했지만, 환상적으로 들리는 그리스어 단어를 사용하여 다른 사람들이 자신이 심오한 무언가에 있다고 생각하게 만들었습니다. 그의 잘못은 슬프게도 100 년 이상 통계 교육과 문해력에 해를 끼쳤다. 첨도가 작은 뾰족한 ( "lepto") 분포와 첨도가 거의 무한한 평평한 ( "platy") 분포에 대해서는 내 논문을 참조하십시오. 피어슨의 첨도는 "lepto"또는 "platy"에 대해 아무 것도 말하지 않습니다. ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Peter Westfall

5

선형 수단 :

  • y=a+bxy=a+bx+cx2y=axb

  • 추정되는 모수에서 선형. 회귀 모형 (선형, 로지스틱, GLM 등)에서 와 같이 스칼라 매개 변수와 독립 변수곱을 수반 합니다 . 이와 관련하여 비선형 은 와 같은 것을 의미합니다.y=ea+bx1+ea+bxy=a+bx+xmax(xθ,0)

  • yt=a+byt1+cxytyt1=a+b(yt1xtx)+c(xtxt1)+dxt1

yxa,b,c,dθ


5

문제는 우리가 수정해야 할 통계 용어의 사용에 관한 것이 었습니다. 나는 밀레니엄 세대 아이들이 '무작위'라는 용어를 사용하여 10 년 동안 무작위와 반대되는 것을 의미하도록 수정 해 왔습니다. 이 단어를 사용하기 전에도 실제로 무작위로 추출 된 무작위 데이터 샘플을 생성하기 위해 노력하는 내 연수생의 수를 고려할 때 일상 속어에서이 용어의 난독 화는 위기입니다.

OnlineSlangDictionary에서 :

Definition of random


random

adjective
  • 예상치 못한 놀라운.
    All of the sudden this guy jumped out from behind the bushes, it was so random!
    The street cleaner never comes down our street. How random.
    
  • 의외로 큰.
    The party was totally random.
    

4

글렌과 닉이 언급 한 훌륭한 사례가 이미 너무 많습니다.

회귀의 일부 측면

  • 오차항과 잔차

  • 예측 및 추정 (예측 된 랜덤 효과에 관한 구별을 중단해야합니까?)

  • 예측 / 예측 간격 대 신뢰 구간. 나는 틀린 것을 인용 할 확률이 0.5보다 크다고 생각합니다.

  • 회귀 분석기 (설계 행렬의 열) 대 공변량 등. 특히 구별이 필수적인 기술 상황에서는 많은 사람 (자신 포함)이 정확하지 않은 경향이 있습니다.


혼란 스럽네요 예측과 추정에 차이가 있습니까? 마지막 두 가지 요점에 대해서도 더 자세히 설명해 주시겠습니까? 감사!
yuqian

3

보험 환경에서는 특히 각 데이터 포인트와 데이터 세트의 평균 사이의 제곱 차이 평균이 아닌 분산 을 사용하여 모든 종류의 차이 를 참조 하는 것이 일반적 입니다.


6
나도이 다른 의미로 사용 된 분산을 만났지만, 1918 년 RA 피셔가이 목적을 위해 RA 피셔가이를 납치했을 때의 분산은 기존의 영어 단어였습니다. 통계적인 사람들은 진정한 의미의 소유권을 주장 할 수 없습니다.
Nick Cox

3

베이지안

그것을 배우는 학생들은 베이지안이 "보이는"것인지 말하는데 어려움이 없을 수도 있지만, 빈번주의와 베이지안 접근으로 문제를 해결하도록 요청하면 실패 할 것입니다.

내 경험상 학생들은 철학적 인 차이에 불과하다는 것을 알게 되었으며, 두 가지 접근 방식으로 같은 문제가 발생 한다는 구체적인 예는 없습니다 .

이제 누군가가 그들의 모범에서 자주 접근 하는가? 그들의 가장 좋은 설명은 "이전에는 컴퓨터가 없었습니다 ..."와 같은 것일 것입니다.


누군가가 자주 접근하는 이유를 설명해 주시겠습니까? 감사!
yuqian

4
@yuqian : 예. 나에게 중요한 부분은 사람들이 당신에게 객관적으로 동의하기를 원할 때 그렇게한다는 것입니다. 베이지안 접근 방식은 본질적으로 주관적인 사전 분포를 필요로하며, 실제 문제에는 객관적으로 올바른 사전이 하나도 없습니다. 이는 두 사람이 이전의 생각에 따라 동일한 문제에 대해 서로 다른 답을 계산할 수 있음을 의미합니다. 잦은 접근 방식을 사용하면 이러한 모호성이 없으며 결과를 객관적인 방식으로 다른 결과와 비교할 수 있습니다.
Mehrdad

2

위험

위험확률을 의미하지 않습니다

위험은 모든 결과의 비용을 합한 것으로서, 각 비용에는 발생할 확률이 곱해집니다.

위험은 일반적으로 우리가 달성하고자하는 이익 인 보상 과 비교 됩니다.

여기에 하나의 예입니다 : 귀하의 킬로와트 얼마나 치명적입니다 . 여기에서 다양한 에너지 원에 대한 사망자 수의 위험 은 이러한 에너지 원에 의해 생성 된 테라 와트 시간의 에너지 보상과 비교됩니다.

예를 들어 , 원자력 의 위험 은 붕괴가 일어날 확률 이 아닙니다 . 그것은 붕괴가 일어날 확률과 사망으로 인한 사망자 수를 곱한 결과 정상 운영으로 사망 한 사람의 수와 연산이 정상으로 유지 될 확률을 곱한 것입니다.


4
"위험"에는 보편적으로 인정되는 표준 정의가 없습니다. 그러나 "모든 결과의 비용 [손실]의 합계, 이러한 각 비용 [손실]에 발생 확률을 곱한 값"은 예상 비용 [손실]의 정의입니다. 반면에 위험은 일반적으로 예상 손실과의 (이상한) 편차를 말합니다. 따라서 위험에 대한 일반적인 정의는 분산을 처리한다고 생각합니다.
A. Webb

예를 들어, 보험을 구매할 때의 위험은 위험을 줄이는 것 (사건이 아닌 경우의 영향을 줄임)이지만 실제 예상 비용 은 보험 가입자의 비용과 이익의 차이 인 보험 가입자의 경우 더 높습니다. 테일의 극심한 손실은 보험료의 꾸준한 비용으로 거래되었습니다.
A. Webb

3
@ A.Webb FWIW (국제 국제 위험 분석 협회) 는 위험 을 "인간의 생명, 건강, 재산 또는 환경에 대한 원치 않는 부정적 결과의 실현 가능성; 위험 평가는 일반적으로 사건 발생의 조건부 확률은 사건 발생으로 인한 사건의 결과를 곱한 것이다. " 따라서 위험은 표준 정의 인 것으로 보이며 위험을 추정하거나 측정하는 방법과 위험을 구분할 수있는 권리가 있음을 나타냅니다.
whuber

1
P(A)/t

2

고정 효과임의 효과 는 사람마다 다른 것을 의미 할 수 있습니다. 계량 경제학에서 고정 효과는 실제로 무작위이며, 그에 대해 생각할 때 통계의 모든 효과는 무작위이므로 임의의 이름을 지정해도 의미있는 추가 정보가 제공되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.