가장 혼란스러운 통계 용어


47

통계 학자들은 다른 사람들이 사용하는 방식과 약간 다른 방식으로 많은 단어를 사용합니다. 우리가하고있는 일을 가르치거나 설명 할 때 많은 문제가 발생합니다. 목록을 시작하겠습니다 (이제 주석마다 정의를 추가하겠습니다).

  • 검정력은 귀무 가설을 올바르게 기각 할 수있는 능력입니다. 일반적으로 이것은 "뭔가 일어나고있다"는 말을 올바르게 의미합니다.
  • 바이어스-통계가 관련 모집단 매개 변수와 체계적으로 다른 경우 통계가 바이어스됩니다.
  • 유의성-다음과 같은 상황에서 결과가 통계적으로 유의미한 비율 (5 %)로 나타납니다. 표본이 속한 모집단이 0의 실제 효과를 갖는 경우, 표본에서 얻은 것보다 극단적 인 통계 만 발생합니다. 시간의 5 %
  • 상호 작용-종속 변수와 하나의 독립 변수 사이의 관계가 다른 독립 변수의 다른 수준에서 다른 경우 두 개의 독립 변수가 상호 작용

그러나 다른 많은 사람들이 있어야합니다!


5
나는 사람들이 그들의 답변에 더 큰 맥락을 추가 할 것을 제안한다. 예는 다른 분야에서 다르게 사용 된 동일한 단어 (고정 효과 Gelman, 2005 ) 또는 다른 상황에서 다른 의미를 갖는 단어 (중대 대 통계적 의미 Bushway et al., 2006 ) 일 수 있습니다.
앤디 W

5
"기술적"이라는 용어가 실제로 무엇을 의미하는지 또는 다른 의미를 갖는 것으로 인식 될 수있는 이유를 응답자가 한두 문장으로 설명 할 수 있다면 좋을 것입니다.
chl

나는 나중에 당신의 의견에 따라 답을 완성 할 것입니다 ;-)
ocram

1
... 그리고 "상관"!
Stéphane Laurent

1
"sample"에 대해서는 stats.stackexchange.com/questions/20945/…에 대한 주석을 참조하십시오 .
whuber

답변:


21

"중요한"은 제가 사용하는 가장 큰 의미입니다. 왜냐하면 일반적인 영어 사용 의미 연구 결과 토론에서 그 의미가 커지기 때문 입니다. 통계적 결과에 대해 이야기했던 같은 문장에서 중요한 의미를 갖기 위해 "유의적인"단어를 섞는 것도 발견 할 수 있습니다.

그 방법은 광기입니다.


그러나 "나는 그것이 중요하다는 것을 확신한다. 그러나 나는 그것에 대해 어떤 테스트도하지 않았으며, 그것이 명백하거나 / 할 수 없거나 / 무엇이든지간에"하지 않았다.
naught101

17

목록에 Linear를 추가하는 것이 좋습니다.

나는 엔지니어로서 임의 변수 의 값 을 고려한 임의 변수 의 선형 최소 평균 제곱 오차 추정으로 생각하는 것에 대해 math.SE에 대한 질문 을했습니다 ( 를 로 추정하는 것을 의미합니다) 는 을 최소화하기 위해 와 를 선택 하고 부분적으로 답했습니다. 질문에 대한 의견 중 하나가X Y Y는 = X의 + B B에 E의 [ ( Y - X가 - B ) 2 ]YXYY^=aX+babE[(YaXb)2]

"선형"이라는 단어를 사용하는 이러한 방식이 선형 회귀에서 선형 회귀가 왜 선형에 적합하기 때문인지에 대한 대중의 오해로 이어질 수 있기 때문에 나는 당신의 언어에 다소 불편합니다. 통계학자가 포물선이나 사인파 등에 맞을 때 선형 회귀를하고 있다고 주장하면 혼란스러워한다. "

그래서, 어떻게 않습니다 선형 회귀 분석은 통계에 의미?


5
이 답변과 관련하여 사이트의 관련 질문, 선형 회귀에서 선형은 무엇을 의미합니까?
Andy W

1
@AndyW 그렇다면 Peter Flom이 시작한 목록에 Linear가 속해 있다고 말하고 싶습니까?
Dilip Sarwate

1
예,이 목록의 청구서에 맞는 것으로 동의합니다. (+1)
Andy W

4
목록에 적합하지만 특이한 이유가 있습니다. "선형"이라는 용어의 의미는 수학적으로 많은 분야에서 일관되게 사용됩니다. 잠재적 혼동 은 공식의 어느 부분 이 선형인지에 관한 것입니다.
whuber

포물선을 어떻게 맞추고 선형 모델이라고 부르는지 예를들 수 있습니까?
oneloop

14

개연성

가설 검정과 신뢰 구간 해석과 관련된 대부분의 문제는 절차가 빈번한 문제를 기반으로 할 때 "확률"에 대한 베이지안 정의의 적용에서 비롯된 것 같습니다. 예를 들어, AFAICS가 빈번한 설정에서 특정 가설의 진실과 연관 될 수있는 확률이없는 경우, p- 값은 귀무 가설의 확률 인 참입니다.


4
신뢰 구간을 말하거나 해석 할 때 (true) 매개 변수가 xx와 xx 사이에있을 확률이 95 % 일 것이라고 말하는 사람들에게도 동일한 고려 사항이 적용되는 것처럼 보입니다.
chl

1
네 그럼요!
Dikran Marsupial

1
+1 그러나 마지막 문장을 약간 다르게 표현합니다. 가장 빈번한 설정 내에서 귀무 가설이 참일 확률은 1 또는 0 이지만 어느 것을 알 수 없습니다 . (엄밀히 '확률'은 장기의 상대 주파수와 '장기 주파수'정말 적용되지 않습니다이기 때문에 이것은 매우 옳지 않아, 사람들이 말하는 이런 식으로 표현한 경우. 그럼에도 불구하고, 무엇을 이해하기를 우리가 이해하는 방법 / 말했다되고 있어요 예를 들어, 사람들은 귀무 가설 p- 값을 귀무 가설이 참일 확률로 사용할 수 없다는 것을 알고 있습니다.)
gung-Reinstate Monica

2
" '확률'은 장기의 상대 주파수이기 때문에"probabilists의 제비는 격렬하게 그 문에 이의를 제기합니다
딜립 사와 트는

14

"자신"

비 통계 전문가에게 신뢰 구간이 다른 매개 변수 값 의 신뢰성 에 대한 설명이 아니라고 설득하기는 매우 어렵습니다 .

자신감을 가지려면 용어의 기술적 의미에서 반복되는 실험 세트를 상상해야합니다. 각 실험은 미리 지정된 방식으로 간격을 계산합니다. 95 % 신뢰 구간이 되려면 이러한 공식 사용의 95 %가 관련 관심 매개 변수를 트랩합니다.

그러나 비 통계 학자들은 일상적으로 "95 % 신뢰"를 하나의 실험만으로 타당한 모수 값에 대한 진술로 해석합니다. 일반적으로 그들은 간격이 매개 변수에 대한 일부 후신 신념의 95 %를 차지한다고 가정합니다. 즉, "우리는 매개 변수가 와 사이에 확신합니다 ". 대신 신뢰할 수있는 간격을 정의 합니다.bab

(물론 두 개념이 대략 또는 정확히 일치하는 상황이 있습니다. 그러나 일반적으로 동의하지 않으며 숫자 계약이 기술 용어의 오용 문제를 제거하지는 않습니다.)


10

"Likelihood"-일상 연설에서 "확률"과 동의어이지만 통계에서는 특별한 의미를 갖습니다. 통계 모델의 매개 변수의 함수입니다.이 값은 매개 변수를 가정 할 때 관찰 된 결과의 확률입니다. 매개 변수 값과 같습니다.


8

오류.

통계에서 "오류"는 모델 예측과 실제 데이터 값의 편차입니다.

실제로는 오류가 spllng mstake 또는 다른 바보입니다.


철자 실수는 단지 통신 매체의 실제 (의도 된) 값과의 편차가 아닌가? 나는 이것이 어떻게 다른 단어인지 알지 못한다. 단지 다른 (그러나 충돌하지 않는) 맥락에서 사용된다는 것이다. 나는 그 분야에 새로운 사람에게 혼란을 줄 것이라고 믿기가 어렵다.
naught101

2
값이 예측과 다를 수있는 한 가지 이유는 실험자가 혼란에 빠졌기 때문입니다. 그것은 철자 실수와 같습니다. 그러나 왜 체중이 성별과 연령의 모든 사람들의 평균 체중과 다른가? 소득이 평균 소득과 다른 이유는 무엇입니까? 통계에서이 평균과의 편차는 "오류"이지만 실수가 아니라 변형입니다.
Harvey Motulsky

사실, 그것은 당신이 그것을 어떻게 보는가에 달려 있다고 생각합니다. 초등학교 샘플에 대해 단어의 철자를 보면, 인간에 의한 것이지만 실험자에 의해서도 변하지 않을 것입니다. 다른 연령대의 영어로 작성하는 것보다 똑같은 것을 볼 수 있습니다. 초기 영어의 변동성이 훨씬 높다는 것을 알게 될 것입니다. :)
naught101

@HarveyMotulsky : 분석 화학은 두 가지 방식으로 오류를 사용합니다. 우리는 체계적인 오류, 무작위 오류 및 총 오류를 말합니다. 교과서 : "총 오류를 피할 수 있습니다".
cbeleites는

8

"추론"

처음에 이해하기 가장 어려운 것 중 하나는 모집단과 표본의 차이였습니다. 통계는 샘플 수준의 작품들로이 화려한 인구 수준의 회귀 방정식 후 갑자기 드롭을 모두 작성하고 될 s의 의. 모집단 수준 모수를 추정하기 위해 표본 수준 데이터와 회귀 방정식을 사용하고 있음을 깨닫는 데 오랜 시간이 걸렸습니다.bβb

추론에 대한 또 다른 중요한 부분은 중심 한계 정리입니다. 표본 추출이 추론과 유사한 또 다른 복잡한 기능이지만 모집단에서 단순히 표본 추출하고 있음을 알게되면 표본 평균이 하나의 값을 보유하더라도 해당 값이 모집단에서 반드시 동일한 평균 일 필요는 없음을 이해합니다. .

아마도 귀하의 질문에 대해 비교적 느슨하게 이해했지만 누군가가 표본과 모집단의 추론 또는 차이점을 이해하면 통계 전체가 열릴 수 있습니다.


7

우리 (또는 적어도 나에게)에게 "샘플"의 "무작위"는 그것이 "인구"를 대표한다는 것을 시사한다.

다른 사람들에게 "무작위"는 때때로 사람 / 사물이 비정상적임을 암시합니다.


1
나는 "무작위"에 대한 혼란을 겪지 않았습니다. 그러나 당신이 가지고 있다면 분명히 존재합니다.
Peter Flom-Monica Monica 복원

3
더 정확하게 말해서, 그것은 존재했습니다
Thomas Levine

1
"무작위"의 후자의 사용법은 나에게 최근에 보인다. 나는 그 이유 때문에 약간 성가신 것을 발견합니다 (사람들이 통계를 이해하기 어렵게 만듭니다). 내가 그런 의미에서 그것을 사용한다고 들었을 때 더욱 성가시다 ..
naught101

5

대중을 혼란스럽게하는 용어와 통계학자를 혼란스럽게하는 용어를 구별해야한다고 생각합니다. 위의 제안은 대부분 통계학자가 이해하고 대중이 오해 할 수있는 용어입니다. 통계학자가 이해하지 못하는 용어를 목록에 추가하고 싶습니다.

  • 베이지안 : 원래는 주관적인 베이 즈 (일명 전염병, De-Finetti)라고 알려진 것을 말합니다. 오늘날이 용어는 베이 즈 규칙이 주관적 신념의 맥락에서 거의 나타나지 않을 때마다 사용될 것이며, 이는 의사 결정 이론으로 간주됩니다.
  • 경험적 베이 : 원래 비모수 적 이전 의 잦은 설치를 말합니다 . 오늘날, 일반적으로 이전의 파라 메트릭 (객관적) 매개 변수가 추정되고 사전에 알려지지 않음을 의미합니다. 즉, 한 번 유형 II 최대 가능성으로 알려졌습니다.
  • 비모수 : 때때로 "모델이없는"을 나타냅니다. 때때로 "배포 무료". "파라 메트릭"모델에는 수백만 개의 매개 변수가 포함될 수있는 날에 실질적으로 정보가 없어졌습니다.
  • 유형 III 오류 : 때때로 부호 오류를 나타냅니다. 때때로 모델의 잘못된 사양을 언급합니다.

내가 물었을 때, 나는 "일반 대중을 혼란스럽게하는 용어들"을 의도했지만 통계 학자들을 혼란스럽게하는 용어들도 역시 가치가있다
Peter Flom-Reinstate Monica

이것은 아마도 별도의 답변으로 나뉘어 야합니다.
naught101

4

생태, 일반적으로 생물학적 시스템뿐만 아니라 통계적 오류를 나타내는 데 사용됩니다. Wikipedia에서 :

생태 학적 오류 (또는 생태적 추론 오류)는 생태학 연구에서 통계 데이터를 해석 할 때 오류가 발생하므로 특정 개인의 성격에 대한 추론은 해당 개인이 속한 그룹에 대해 수집 된 집계 통계에만 근거합니다. 이 오류는 그룹의 개별 구성원이 그룹의 평균 특성을 크게 가지고 있다고 가정합니다.


3

"설문 조사"는 수학 유형 ( "설문 조사") 또는 종이 ( "질문")입니까?

나는 이것에 대한 조사를 실시하지 않았지만, 많은 대중이 "조사"를 후자라고 생각한다. 나는 그들이 전자에 대해 생각하지 않는다고 더 의심합니다.


2
측량사가 측량을하지 않습니까? ;)
zbicyclist

3

"부하", "계수"및 "무게"; 주요 성분 분석에 대해 이야기 할 때

나는 일반적으로 사람들이 그것을 사용할 때 아주 임시적인 것을 발견하고, 먼저 의미를 명확하게 정의하지 않고 상호 교환 적으로 고용하고 실제로 "로드 벡터"를 언급하는 논문을 보았으며 때로는 PC 자체와 다른 시간 "무게"를 의미합니다. 특정 PC와 연결되어 있습니다.

아마도 Jollifee가 Principal Components에 대한 훌륭한 참조가 1.1 절 말에 언급되어 있다는 사실은 "일부 저자들은 사용 된 정규화 제약 조건에 따라 '로드'와 '계수'라는 용어를 구별하지만이 책에서 상호 교환 적으로 사용될 것입니다." 사람들이 자신의 취향에 맞게 용어를 섞어 사용할 수있는 프리 패스가 있다고 생각하게 만들었습니다.


1

부가 모델. 이것이 무엇을 의미하는지 아직 확실하지 않습니다. 상호 작용 항이없는 모형을 의미한다고 생각합니다. 그런 다음 스플라인 모델과 같은 다른 항목을 참조하기 위해 사용하는 기사를 살펴 보겠습니다.


0

내가 가장 혼란스럽게 생각하는 용어 중 하나는 "혼란 매트릭스"입니다. 물론 사용 된 용어 자체는 개념이 아니라 혼동됩니다.

나는 그 용어의 역사를 추적하려고 노력했다. 그리고 그것은 또한 매우 흥미 롭다. 혼란 매트릭스는 1904 년에 ( http://en.wikipedia.org/wiki/Karl_Pearson )에 의해 발명되었습니다 . 그는 http://en.wikipedia.org/wiki/Contingency_table 이라는 용어를 사용했습니다 . 그것은 FRS (1904)의 Karl Pearson에 출연했다. 진화론에 대한 수학적 기여 (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

2 차 세계 대전 동안 자극과 반응의 관계를 조사하기 위해 h ttps : //en.wikipedia.org/wiki/Detection_theory 가 개발되었습니다. 혼란 매트릭스가 사용되었습니다.

탐지 이론으로 인해이 용어는 심리학에 사용되었습니다. 거기에서이 용어는 기계 학습에 도달했습니다.

머신 러닝과 매우 관련이있는 통계에서 개념이 발명되었지만 100 년 동안 우회 한 후 머신 러닝에 도달 한 것으로 보입니다.

용어 사용에 대한 일부 참고 자료는 다음을 참조하십시오. 용어 혼동 행렬의 기원은 무엇입니까?


-4

"통계"

일반인들에게 "이제 나는 너에게 거짓말을하고 당신이 이해할 수없는 방식으로 말하려고한다."

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.