확률과 통계의 차이점은 무엇입니까?


답변:


114

내가 Persi Diaconis에서 들었던 이것에 대한 짧은 대답은 다음과 같습니다. 확률과 통계로 고려되는 문제는 서로 반대입니다. 확률 이론에서 우리는 임의의 변수에 의해 모델링 된 임의의 불확실성 또는 불확실성을 갖는 일부 기본 프로세스를 고려하고 어떤 일이 발생하는지 알아냅니다. 통계에서 우리는 어떤 일이 일어 났는지 관찰하고, 어떤 기본 프로세스가 그러한 관찰을 설명 할 수 있는지 알아 내려고 노력합니다.


2
통계는 실제 세계에서 일어나는 일을 관찰하고 기본 프로세스에 대해 이론화 한 다음 프로세스를 찾은 다음 확률에 따라 프로세스를 사용하여 다음에 어떤 일이 일어날지를 예측합니까?
hslc

저는 통계학자는 아니지만, 제가 이해 한 바에 따르면, 통계가하는 일의 그 부분 입니다.
Mark Meckes

16
유도 대 공제?
Paolo

6
Paolo가 말했듯이 확률 이론은 주로 연역 부분, 모델링 과정의 유도 부분 통계와 불확실성에 관한 것입니다. 아마도 그럴듯한 귀납적 추론이 일관되어야한다고 생각한다면 실제로 결과는 베이지안 통계이며, 더 흥미로운 것은 확률 이론으로부터 도출 될 수 있다는 것입니다. 따라서 베이지안 통계는 기본적으로 확률 이론이 적용됩니다.
Thies Heidecke 2:27에

1
@Paolo Statistical Inference는 "Inductive Statistics"로 간주됩니다
kervin

77

나는 빨강과 녹색 젤리 빈 항아리의 예를 좋아합니다.

전문가는 각각의 비율을 아는 것으로 시작하여 빨간 젤리 빈을 그릴 가능성을 묻습니다. 통계학자는 항아리에서 샘플링하여 붉은 젤리 빈의 비율을 추론합니다.


그러나 그것은 단지 공식화가 아닙니까? 한 전문가가 "내가 팥을 3 개 뽑았는데 그 비율이 50 도일 확률은 얼마입니까?"라고 물을 수 있습니다.
Thomas Ahle

2
@ThomasAhle : 원래 색상 분포에 대한 기본 확률 모델을 가정하지 않는 한 잘 정의 된 확률 질문이 아닙니다.
Mark Meckes

55

통계가 단순히 확률의 반대라고 말하는 것은 오해의 소지가 있습니다. 그렇습니다. 통계 문제 역 확률의 문제이지만, 잘못된 문제 가되기 때문에 문제가 해결 되는 방식에 큰 차이가 있습니다.

확률은 순수 수학의 한 가지입니다. 확률 문제는 공리적 추론을 사용하여 제기하고 해결할 수 있으므로 확률 질문에 대한 정답이 하나 있습니다.

확률 모델을 사용하여 통계 질문 을 확률 질문 으로 변환 할 수 있습니다. . 데이터를 생성하는 메커니즘에 대해 특정 가정을 한 후에 확률 이론을 사용하여 통계 질문에 대답 할 수 있습니다. 그러나 이러한 확률 모델의 적절한 공식화와 확인은 이러한 모델을 사용하는 문제의 후속 분석보다 중요하거나 훨씬 중요합니다.

통계는 두 부분으로 구성되어 있다고 말할 수 있습니다. 첫 번째 부분은 문제에 대한 확률 적 모델을 공식화하고 평가하는 방법에 관한 문제입니다. 이 노력은 "과학 철학"의 영역 내에있다. 두 번째 부분은 특정 모델이 가정 된 후 답변을 얻는 문제입니다. 통계의이 부분은 실제로 적용된 확률 이론의 문제이며, 실제로 수치 분석도 상당히 포함되어 있습니다.

참조 : http://bactra.org/reviews/error/


2
나는이 답변에 당신을 사랑합니다
badatmath

16

나는 Steve Skienna의 Calculated Bets 에서 이것을 좋아합니다 (완전한 토론을 보려면 링크를 참조하십시오).

요약하면, 확률 이론은 우리가 주어진 이상 세계의 결과를 찾을 수있게하는 반면 통계 이론은 우리가 세계가 이상적인 정도를 측정 할 수있게합니다.


13

확률은 순수한 과학 (수학)이며 통계는 데이터에 관한 것입니다. 확률은 통계에 대한 일종의 기초를 형성하고 기본 아이디어를 제공하기 때문에 연결되어 있습니다.


3
그렇다면 확률은 순수한 수학이고 통계는 수학에 적용됩니까?
hslc

4
통계가 적용될 수도 있고 그렇지 않을 수도 있습니다. 여전히 데이터의 개념은 항상 존재합니다.

13

직관적 인 생물 통계학 의 표 3.1 은이 질문에 대한 답을 아래 그림과 같이 제시합니다. 모든 화살표는 확률의 경우 오른쪽을 가리키고 통계의 경우 왼쪽을 가리 킵니다.

개연성

일반 ---> 특정

인구 ---> 표본

모델 ---> 데이터

통계

일반 <--- 특정

인구 <--- 표본

모델 <--- 데이터


1
통계는 데이터 분석과 동의어입니까?
hslc

3
나는 구별이 보이지 않습니다.
Harvey Motulsky

3
일부 데이터 분석은 잦은 통계에 의존하지 않습니다.
Fr.

11

확률은 어떤 일 발생할 지에 대한 질문에 답하고 통계는 어떤 일 일어 났는지에 대한 질문에 답 합니다.


3
그러나이 정의에 따르면 예측 간격은 통계가 아닌 확률입니다.
Glen_b

10

확률은 불확실성을 정량화하는 것과 관련이 있지만 통계는 실제 세계에서 관찰되는 일부 관심 측정치의 변동 (예 : 소득 수준이 변하는 이유)을 설명합니다.

우리는 몇 가지 관찰 가능한 요소 (예 : 소득의 예에서 성별, 교육 수준, 연령 등)를 사용하여 변동을 설명합니다. 그러나 소득에 영향을 미치는 모든 가능한 요소를 고려할 수는 없기 때문에 불확실성을 정량화하는 임의의 오류에 대해 설명 할 수없는 변형을 남겨 둡니다.

"변형 = 관측 가능한 요인의 영향 + 임의의 오류의 영향"의 속성이므로 관측 된 변동에 대한 임의의 오류의 영향을 설명하기 위해 확률로 제공되는 도구가 필요합니다.

몇 가지 예는 다음과 같습니다.

정량적 불확실성

예 1 : 6면 주사위를 굴립니다. 1을 얻을 확률은 얼마입니까?

예 2 : 미국에서 무작위로 선택한 성인의 연간 소득이 $ 40,000 미만일 확률은 얼마입니까?

변형 설명

예 1 : 우리는 개인의 연간 소득이 다르다는 것을 관찰합니다. 개인의 소득 변동을 설명하는 요소는 무엇입니까?

모든 요인을 설명 할 수는 없습니다. 따라서, 우리는 개인의 소득을 관찰 가능한 요소 (예 : 교육 수준, 성별, 연령 등)에 기인하고 나머지 변동은 불확실성 (또는 통계 언어 : 임의 오류)으로 남겨 둡니다.

예 2 : 일부 소비자는 세제를 구매할 때 대부분 조수를 선택하는 반면 다른 소비자는 세제 브랜드 xyz를 선택합니다. 선택의 변화를 설명하는 것은 무엇입니까? 우리는 선택의 변동을 가격, 브랜드 이름 등과 같은 관찰 가능한 요인에 기인하며, 임의의 오류 (또는 불확실성)에 대해 설명 할 수없는 변동을 남겨 둡니다.


1
임의의 오차가 시간이 지남에 따라 관측 가능한 요소보다 커지면 어떻게됩니까?
hslc

이 경우 더 이상 현실과 일치하지 않으므로 모델을 다시 작업하십시오.

8

확률은 불확실성을 포용하는 반면 통계는 실증적이고 진실을 추구하는 것입니다 (물론, 거짓말 쟁이는 제외).


여기서 나는 모든 잦은 / 베이지 확률과 모든 묘사 / 탐사 / 추론 통계에 대해 생각하고있다.

7

Mark가 말한 것과 유사하게 통계는 역사적으로 역 확률 이라고 불렀습니다. 통계는 관측치가 주어지면 사건의 원인을 유추하려고 시도하지만 확률은 다른 방향으로 나타납니다.


6

사건 의 확률 은 장기 상대 빈도입니다. 예를 들어 다음 번 동전 던지기에서 '머리'를 얻거나 다음 주사위 굴림에서 '3'을 얻을 가능성 을 기본적으로 알려줍니다 .

통계는 인구의 샘플에서 계산 된 모든 수치 측정 한 것입니다. 예를 들어, 표본 평균입니다. 이를 모수 인 모집단 평균을 추정하는 통계로 사용합니다. 기본적으로 샘플 에 대한 요약 을 제공합니다.

  • 표본에서만 통계를 얻을 수 있습니다. 그렇지 않으면 모집단에 대한 수치 측정을 계산하는 경우이를 모집단 모수라고합니다.

6

확률 연구, 가능한 사건이 얼마나 있는지. 확률이 무엇인지 직관적으로 알 수 있습니다.

통계는 데이터 연구 (차트와 같은 도구 사용), 요약 (평균 및 표준 편차 등 사용), 데이터가 작성된 세계에 대한 결론에 도달 (선에 데이터 맞추기 등) 및 -이것이 핵심입니다-우리가 결론에 대해 얼마나 확신 할 수 있는지 정량화합니다.

결론에 대해 얼마나 확신 할 수 있는지 정량화하려면 확률을 사용해야합니다. 당신이 살고있는 지역과 내가 사는 지역의 강우에 대한 작년 데이터가 있다고 가정 해 봅시다. 작년에 당신이 사는 주당 평균 1/4 인치, 내가 사는 곳에 3/8 인치가 내 렸습니다. 따라서 우리 지역의 강우량은 거주 지역보다 평균 50 % 더 높다고 말할 수 있습니다. 빠르지 않아요, 스파키 우연의 일치 일 수도 있습니다. 아마도 작년에 제가 살고있는 곳에서 비가 많이 내렸을 것입니다. 우리는 확률을 사용하여 우리 집이 당신 집보다 50 % 더 맛있다는 결론에 얼마나 확신 할 수 있는지 추정 할 수 있습니다.

기본적으로 확률은 통계 이론의 수학적 기초라고 말할 수 있습니다.


5

확률 이론에서 우리는 어떤 식 으로든 임의의 변수 X1, X2, ...가 주어진 다음, 그 속성을 연구합니다. 즉 확률 P {X1 \ in B1}을 계산하고 X1, X2 등의 수렴을 연구합니다. .

수학적 통계에서, 우리는 임의의 변수 X에 대한 n 개의 실현과 분포 D를 제공받습니다. 문제는 우리가 관찰 한 데이터를 생성 할 가능성이 가장 큰 D 분포에서 찾을 수 있다는 것입니다.


우리는 처음에 찾고 있던 패턴 만 찾을 수 있습니까?
hslc

4

확률 적으로, 분포는 이미 알려져 있고 알 수 있습니다. 알려진 확률 분포 함수 (또는 유사한)로 시작하여 그로부터 샘플링합니다.

통계적으로 분포를 미리 알 수 없습니다. 심지어 알지 못할 수도 있습니다. 해당 데이터에 대한 귀무 가설을 기각 할 수 있는지 여부를 알기 위해 해당 데이터에 확률 이론을 적용 할 수 있도록 관찰 된 데이터의 확률 분포에 대한 가정이 가정됩니다.

실제 세계에 확률과 같은 것이 있는지, 또는 그것이 우리의 수학적 상상력의 이상적인 그림인지에 대한 철학적 논의가 있으며, 우리의 모든 관측치는 통계적 일 수 있습니다.


3

통계는 불확실성에 직면 한 진실을 추구하는 것입니다. 확률은 불확실성을 정량화 할 수있는 도구입니다.

(나는 질문을받는 것이 "할머니에게 어떻게 설명 하겠는가?"라는 문구에 따라 다른 것으로 가정 한 또 다른 더 긴 대답을 제공했습니다.)


3

(Ω,에프,)θ(Ω,에프,θ)θ

θθ

면책 조항 : 위의 수학 답변입니다. 실제로 통계의 대부분은 적절한 모델의 설계 / 발견, 기존 모델에 대한 질문, 실험 설계, 불완전한 데이터 처리 등에 관한 것입니다. "모든 모델이 잘못되었습니다."


4
"화학이란 무엇인가?" 우리는 그것이 일련의 미분 방정식이라고 대답 할 수 있습니다. 수학적 이론에 대한 설명은 우리에게 주제에 대한 작은 아이디어를 줄 수 있지만 주제 자체는 아닙니다.
whuber

3

확률 : 알려진 매개 변수가 주어지면 특정 데이터 세트를 관찰 할 확률을 찾으십시오.

통계 : 특정 관측 데이터 세트가 주어지면 매개 변수가 무엇인지 추론합니다.

통계는 "주관적"이고 "과학보다 예술"입니다 (확률과 관련됨).

_

확률 : 이라고 가정=12HHH

18

HHH

다른 통계 학자들은 다른, 종종 오래 걸리는 답변을 줄 것입니다.


3

확률과 통계의 차이는 확률에 실수가 없다는 것입니다. 우리는 동전에 몇 개의면이 있는지, 꽃병에 얼마나 많은 푸른 카라멜이 있는지 알고 있기 때문에 확률이 확실합니다. 그러나 통계에서 우리는 무엇을 검사하든 인구 집단을 조사하고, 이것으로부터 진실을 보려고 노력하지만, 항상 잘못된 결론의 %가 있습니다. 통계에서 유일한 것은 사실이 확률입니다.


2

Savage의 텍스트 기초 통계는 Google Scholar에서 12000 번 이상 인용되었습니다. [3] 다음을 알려줍니다.

통계가 어떻게 든 확률에 의존한다는 것은 만장일치로 동의합니다. 그러나 확률이 무엇이며 통계와 어떻게 연결되어 있는지에 대해서는 바벨탑 이후로 의사 소통이 완전히 불일치하고 불분명 한 경우가 거의 없었습니다. 의심의 여지없이, 많은 의견 불일치는 용어 일 뿐이며 충분히 예리한 분석 하에서 사라질 것입니다.

https://ko.wikipedia.org/wiki/Foundations_of_statistics

따라서 확률 이론이 통계의 기초라는 점은 거의 논쟁의 여지가 없습니다. 다른 모든 것은 공정한 게임입니다.

그러나 답변을 통해 더 도움이되고 실용적으로 노력하려고합니다 ...

그러나 확률 이론에는 대부분 수학적으로 관심이 많고 통계와 직접 관련이없는 것이 많이 포함되어 있습니다. 또한 통계의 많은 주제는 확률 이론과 무관합니다.

https://en.wikipedia.org/wiki/Probability_and_statistics

위의 내용은 결코 철저하거나 권한이 없지만 유용하다고 생각합니다.

일반적으로 그것은 다음과 같은 것을 보는 데 도움이되었습니다 ...

수학 설명 >> 확률 이론 >> 통계

각각은 다음의 기초에서 평균적으로 많이 사용됩니다. 그것은 우리가 다음 기초를 연구하는 방법에 큰 교차점이 있다는 것입니다.

추신. 귀납적 및 연역적 통계가 있으므로 차이가있는 곳이 아닙니다.


0

많은 사람들과 수학자들은 '통계는 확률의 역수'라고 말하지만 특히 옳지는 않습니다. 접근 또는이 둘을 해결하는 방법의 방법은 완전히 다른 있지만입니다 상호 .

내 친구 John D Cook을 참조하고 싶습니다 .....

"빨간색과 초록색 젤리 빈 병의 예를 좋아합니다.

전문가는 각각의 비율을 아는 것으로 시작하여 빨간 젤리 빈을 그릴 확률을 찾습니다. 통계학자는 항아리에서 샘플링하여 붉은 젤리 빈의 비율을 추론합니다. "

이제 항아리에서 샘플링하여 얻은 붉은 젤리 빈의 비율은 항아리에서 붉은 콩을 그릴 확률을 찾기 위해 probabilist에 의해 사용됩니다

이 예를 고려하십시오 ---- >>>

시험에서 학생의 30 %가 물리학에 실패했고, 25 %는 수학에 실패했으며, 12 %는 물리와 수학에 모두 실패했습니다. 수학에서 실패한 것으로 알려진 경우 학생이 물리학에서 실패했을 확률을 무작위로 선택합니다.

위의 합계는 확률의 문제이지만주의 깊게 살펴보면 합계에 통계 데이터가 제공됩니다.

물리학에 실패한 학생 30 %, 25 % "" "maths"

따라서 확률과 통계는 서로 매우 많이 연결되어 있거나 확률이 통계에 많이 의존한다고 말할 수 있습니다.


0

"통계"라는 용어는 JC Maxwell에 의해 분자 기사 ( Nature 8, 1873, pp. 437–441)에 아름답게 설명되어 있습니다. 관련 구절을 인용하겠습니다.

섹션 F의 실무진이 인구 조사 보고서 또는 경제 및 사회 과학의 수치 데이터를 포함하는 기타 문서를 보유 할 때, 연령, 소득세, 교육, 종교적 신념 또는 범죄 유죄 판결. 개인의 수는 각자의 역사를 개별적으로 추적 할 수 없을 정도로 너무 커서, 사람의 한계 내에서 노동을 줄이기 위해 소수의 인공 그룹에 관심을 집중시킵니다. 각 개인의 다양한 상태가 아니라 각 그룹의 다양한 개인이 그들이 일하는 기본 데이터입니다.

물론 이것이 인간의 본성을 연구하는 유일한 방법은 아닙니다. 우리는 개별 남성의 행동을 관찰하고 기존의 최고의 이론에 따라 이전 인물과 현재 상황이 우리를 기대하게 만든 행동과 비교할 수 있습니다. 이 방법을 수행하는 사람들은 천문학자가 행성의 실제 위치를 수신 된 요소에서 추론 한 것과 비교하여 행성의 요소를 수정하는 것과 거의 같은 방식으로 인간 본성의 요소에 대한 지식을 향상 시키려고 노력합니다. 그러므로 부모와 교직원, 역사가 및 정치가에 의한 인간 본성 연구는 등록 기관과 표 작성자, 그리고 믿음을 가진 정치가에 의해 수행되는 것과 구별되어야한다. 하나는 기록이라고하고 다른 하나는 통계적 방법이라고 할 수 있습니다.

역학 방정식은 물질에 적용되는 역사적 방법의 법칙을 완전히 표현하지만 이러한 방정식의 적용은 모든 데이터에 대한 완벽한 지식을 의미합니다. 그러나 우리가 실험 할 수있는 물질의 가장 작은 부분은 수백만 개의 분자로 구성되며, 그중 하나는 우리에게 개인적으로 합리적이지 않습니다. 그러므로 우리는이 분자들 중 어느 하나의 실제 운동을 확인할 수 없어서 엄격한 역사적 방법을 포기하고 큰 분자 그룹을 다루는 통계적 방법을 채택해야한다.

그는 몇 가지 다른 작업에서 통계적 방법에 대한이 설명을 제공합니다. 예를 들어, "통계 조사 방법에서 우리는 운동 중 시스템을 따르지 않지만 특정 단계에주의를 기울이고 시스템이 해당 단계에 있는지 여부와 단계에 들어갈 때를 확인합니다. 그리고 그것이 떠날 때 "(Trans. Cambridge Philos. Soc. 12, 1879, 547-570 쪽).

맥스웰의 "확률"에 대한 또 다른 아름다운 구절이있다 (1850 년 서기 , 제임스 클러 크의 생애 , 143 쪽).

논리의 실제 과학은 현재 확실하거나 불가능하거나 완전히 의심스러운 것들에 대해서만 대화하고 있으며, 그 중 어느 것도 우리가 추론 할 필요가 없습니다. 그러므로이 세상의 진정한 논리는 확률의 계산법으로 확률의 크기 (또는 합리적인 사람의 마음에 있어야 함)를 고려합니다.

그래서 우리는 말할 수 있습니다 :

통계에서 우리는 "작은 수의 인공 그룹에 관심을 집중하고있다"또는 수량; 우리는 일종의 목록 화 또는 인구 조사를 만들고 있습니다.

– 일부 사건 또는 수량에 대한 불확실성을 계산할 가능성 이 있습니다.

이 둘은 별개이며, 다른 하나 없이도 할 수 있습니다.

예를 들어, 한 국가의 전체 인구에 대해 완전한 인구 조사를하고 연령, 성별 등과 같은 특정 그룹에 속하는 정확한 수의 사람들을 세면 통계를 수행하는 것입니다. 우리가 찾은 숫자는 정확하고 알려져 있기 때문에 불확실성 – 확률 –은 없습니다.

다른 한편으로, 누군가 길거리에서 우리 앞에서 지나가는 것을 상상해보십시오. 그리고 우리는 그들의 나이에 대해 궁금합니다. 이 경우에 우리는 불확실하고 확률을 사용하지만 어떤 종류의 센서스 나 카탈로그를 만들지 않기 때문에 관련된 통계는 없습니다.

그러나이 둘은 함께 발생할 수도 있습니다. 인구에 대한 완전한 인구 조사를 할 수 없다면, 특정 연령 성별 그룹에 몇 명의 사람들이 있는지 추측 해야합니다 . 따라서 통계를 수행하는 동안 확률을 사용하고 있습니다. 반대로, 우리는 사람들의 나이에 관한 정확한 통계 데이터를 고려할 수 있으며, 그러한 데이터로부터 우리 앞에 지나가는 사람에 대한 더 나은 추측을 시도합니다. 따라서 우리는 확률을 결정하면서 통계를 사용하고 있습니다.


당신의 기여에 감사합니다. stats.stackexchange.com/questions/140547/… 에서 볼 수 있듯이 통계 학자들이 통계를 믿는 것과 실제 행동을 믿지 않는 것은 흥미롭지 않습니다 .
whuber

ot 포인트입니다. 나는 ASA 정의 (심지어 모호한)에 동의하지 않고 Maxwell에 동의하는 전문 통계학자를 안다.
pglpm
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.