답변:
내가 Persi Diaconis에서 들었던 이것에 대한 짧은 대답은 다음과 같습니다. 확률과 통계로 고려되는 문제는 서로 반대입니다. 확률 이론에서 우리는 임의의 변수에 의해 모델링 된 임의의 불확실성 또는 불확실성을 갖는 일부 기본 프로세스를 고려하고 어떤 일이 발생하는지 알아냅니다. 통계에서 우리는 어떤 일이 일어 났는지 관찰하고, 어떤 기본 프로세스가 그러한 관찰을 설명 할 수 있는지 알아 내려고 노력합니다.
나는 빨강과 녹색 젤리 빈 항아리의 예를 좋아합니다.
전문가는 각각의 비율을 아는 것으로 시작하여 빨간 젤리 빈을 그릴 가능성을 묻습니다. 통계학자는 항아리에서 샘플링하여 붉은 젤리 빈의 비율을 추론합니다.
통계가 단순히 확률의 반대라고 말하는 것은 오해의 소지가 있습니다. 그렇습니다. 통계 문제 는 역 확률의 문제이지만, 잘못된 문제 가되기 때문에 문제가 해결 되는 방식에 큰 차이가 있습니다.
확률은 순수 수학의 한 가지입니다. 확률 문제는 공리적 추론을 사용하여 제기하고 해결할 수 있으므로 확률 질문에 대한 정답이 하나 있습니다.
확률 모델을 사용하여 통계 질문 을 확률 질문 으로 변환 할 수 있습니다. . 데이터를 생성하는 메커니즘에 대해 특정 가정을 한 후에 확률 이론을 사용하여 통계 질문에 대답 할 수 있습니다. 그러나 이러한 확률 모델의 적절한 공식화와 확인은 이러한 모델을 사용하는 문제의 후속 분석보다 중요하거나 훨씬 중요합니다.
통계는 두 부분으로 구성되어 있다고 말할 수 있습니다. 첫 번째 부분은 문제에 대한 확률 적 모델을 공식화하고 평가하는 방법에 관한 문제입니다. 이 노력은 "과학 철학"의 영역 내에있다. 두 번째 부분은 특정 모델이 가정 된 후 답변을 얻는 문제입니다. 통계의이 부분은 실제로 적용된 확률 이론의 문제이며, 실제로 수치 분석도 상당히 포함되어 있습니다.
나는 Steve Skienna의 Calculated Bets 에서 이것을 좋아합니다 (완전한 토론을 보려면 링크를 참조하십시오).
요약하면, 확률 이론은 우리가 주어진 이상 세계의 결과를 찾을 수있게하는 반면 통계 이론은 우리가 세계가 이상적인 정도를 측정 할 수있게합니다.
확률은 순수한 과학 (수학)이며 통계는 데이터에 관한 것입니다. 확률은 통계에 대한 일종의 기초를 형성하고 기본 아이디어를 제공하기 때문에 연결되어 있습니다.
직관적 인 생물 통계학 의 표 3.1 은이 질문에 대한 답을 아래 그림과 같이 제시합니다. 모든 화살표는 확률의 경우 오른쪽을 가리키고 통계의 경우 왼쪽을 가리 킵니다.
개연성
일반 ---> 특정
인구 ---> 표본
모델 ---> 데이터
통계
일반 <--- 특정
인구 <--- 표본
모델 <--- 데이터
확률은 불확실성을 정량화하는 것과 관련이 있지만 통계는 실제 세계에서 관찰되는 일부 관심 측정치의 변동 (예 : 소득 수준이 변하는 이유)을 설명합니다.
우리는 몇 가지 관찰 가능한 요소 (예 : 소득의 예에서 성별, 교육 수준, 연령 등)를 사용하여 변동을 설명합니다. 그러나 소득에 영향을 미치는 모든 가능한 요소를 고려할 수는 없기 때문에 불확실성을 정량화하는 임의의 오류에 대해 설명 할 수없는 변형을 남겨 둡니다.
"변형 = 관측 가능한 요인의 영향 + 임의의 오류의 영향"의 속성이므로 관측 된 변동에 대한 임의의 오류의 영향을 설명하기 위해 확률로 제공되는 도구가 필요합니다.
몇 가지 예는 다음과 같습니다.
정량적 불확실성
예 1 : 6면 주사위를 굴립니다. 1을 얻을 확률은 얼마입니까?
예 2 : 미국에서 무작위로 선택한 성인의 연간 소득이 $ 40,000 미만일 확률은 얼마입니까?
변형 설명
예 1 : 우리는 개인의 연간 소득이 다르다는 것을 관찰합니다. 개인의 소득 변동을 설명하는 요소는 무엇입니까?
모든 요인을 설명 할 수는 없습니다. 따라서, 우리는 개인의 소득을 관찰 가능한 요소 (예 : 교육 수준, 성별, 연령 등)에 기인하고 나머지 변동은 불확실성 (또는 통계 언어 : 임의 오류)으로 남겨 둡니다.
예 2 : 일부 소비자는 세제를 구매할 때 대부분 조수를 선택하는 반면 다른 소비자는 세제 브랜드 xyz를 선택합니다. 선택의 변화를 설명하는 것은 무엇입니까? 우리는 선택의 변동을 가격, 브랜드 이름 등과 같은 관찰 가능한 요인에 기인하며, 임의의 오류 (또는 불확실성)에 대해 설명 할 수없는 변동을 남겨 둡니다.
확률 연구, 가능한 사건이 얼마나 있는지. 확률이 무엇인지 직관적으로 알 수 있습니다.
통계는 데이터 연구 (차트와 같은 도구 사용), 요약 (평균 및 표준 편차 등 사용), 데이터가 작성된 세계에 대한 결론에 도달 (선에 데이터 맞추기 등) 및 -이것이 핵심입니다-우리가 결론에 대해 얼마나 확신 할 수 있는지 정량화합니다.
결론에 대해 얼마나 확신 할 수 있는지 정량화하려면 확률을 사용해야합니다. 당신이 살고있는 지역과 내가 사는 지역의 강우에 대한 작년 데이터가 있다고 가정 해 봅시다. 작년에 당신이 사는 주당 평균 1/4 인치, 내가 사는 곳에 3/8 인치가 내 렸습니다. 따라서 우리 지역의 강우량은 거주 지역보다 평균 50 % 더 높다고 말할 수 있습니다. 빠르지 않아요, 스파키 우연의 일치 일 수도 있습니다. 아마도 작년에 제가 살고있는 곳에서 비가 많이 내렸을 것입니다. 우리는 확률을 사용하여 우리 집이 당신 집보다 50 % 더 맛있다는 결론에 얼마나 확신 할 수 있는지 추정 할 수 있습니다.
기본적으로 확률은 통계 이론의 수학적 기초라고 말할 수 있습니다.
확률 이론에서 우리는 어떤 식 으로든 임의의 변수 X1, X2, ...가 주어진 다음, 그 속성을 연구합니다. 즉 확률 P {X1 \ in B1}을 계산하고 X1, X2 등의 수렴을 연구합니다. .
수학적 통계에서, 우리는 임의의 변수 X에 대한 n 개의 실현과 분포 D를 제공받습니다. 문제는 우리가 관찰 한 데이터를 생성 할 가능성이 가장 큰 D 분포에서 찾을 수 있다는 것입니다.
확률 적으로, 분포는 이미 알려져 있고 알 수 있습니다. 알려진 확률 분포 함수 (또는 유사한)로 시작하여 그로부터 샘플링합니다.
통계적으로 분포를 미리 알 수 없습니다. 심지어 알지 못할 수도 있습니다. 해당 데이터에 대한 귀무 가설을 기각 할 수 있는지 여부를 알기 위해 해당 데이터에 확률 이론을 적용 할 수 있도록 관찰 된 데이터의 확률 분포에 대한 가정이 가정됩니다.
실제 세계에 확률과 같은 것이 있는지, 또는 그것이 우리의 수학적 상상력의 이상적인 그림인지에 대한 철학적 논의가 있으며, 우리의 모든 관측치는 통계적 일 수 있습니다.
Savage의 텍스트 기초 통계는 Google Scholar에서 12000 번 이상 인용되었습니다. [3] 다음을 알려줍니다.
통계가 어떻게 든 확률에 의존한다는 것은 만장일치로 동의합니다. 그러나 확률이 무엇이며 통계와 어떻게 연결되어 있는지에 대해서는 바벨탑 이후로 의사 소통이 완전히 불일치하고 불분명 한 경우가 거의 없었습니다. 의심의 여지없이, 많은 의견 불일치는 용어 일 뿐이며 충분히 예리한 분석 하에서 사라질 것입니다.
https://ko.wikipedia.org/wiki/Foundations_of_statistics
따라서 확률 이론이 통계의 기초라는 점은 거의 논쟁의 여지가 없습니다. 다른 모든 것은 공정한 게임입니다.
그러나 답변을 통해 더 도움이되고 실용적으로 노력하려고합니다 ...
그러나 확률 이론에는 대부분 수학적으로 관심이 많고 통계와 직접 관련이없는 것이 많이 포함되어 있습니다. 또한 통계의 많은 주제는 확률 이론과 무관합니다.
https://en.wikipedia.org/wiki/Probability_and_statistics
위의 내용은 결코 철저하거나 권한이 없지만 유용하다고 생각합니다.
일반적으로 그것은 다음과 같은 것을 보는 데 도움이되었습니다 ...
수학 설명 >> 확률 이론 >> 통계
각각은 다음의 기초에서 평균적으로 많이 사용됩니다. 그것은 우리가 다음 기초를 연구하는 방법에 큰 교차점이 있다는 것입니다.
추신. 귀납적 및 연역적 통계가 있으므로 차이가있는 곳이 아닙니다.
많은 사람들과 수학자들은 '통계는 확률의 역수'라고 말하지만 특히 옳지는 않습니다. 접근 또는이 둘을 해결하는 방법의 방법은 완전히 다른 있지만입니다 상호 .
내 친구 John D Cook을 참조하고 싶습니다 .....
"빨간색과 초록색 젤리 빈 병의 예를 좋아합니다.
전문가는 각각의 비율을 아는 것으로 시작하여 빨간 젤리 빈을 그릴 확률을 찾습니다. 통계학자는 항아리에서 샘플링하여 붉은 젤리 빈의 비율을 추론합니다. "
이제 항아리에서 샘플링하여 얻은 붉은 젤리 빈의 비율은 항아리에서 붉은 콩을 그릴 확률을 찾기 위해 probabilist에 의해 사용됩니다
이 예를 고려하십시오 ---- >>>
시험에서 학생의 30 %가 물리학에 실패했고, 25 %는 수학에 실패했으며, 12 %는 물리와 수학에 모두 실패했습니다. 수학에서 실패한 것으로 알려진 경우 학생이 물리학에서 실패했을 확률을 무작위로 선택합니다.
위의 합계는 확률의 문제이지만주의 깊게 살펴보면 합계에 통계 데이터가 제공됩니다.
물리학에 실패한 학생 30 %, 25 % "" "maths"
따라서 확률과 통계는 서로 매우 많이 연결되어 있거나 확률이 통계에 많이 의존한다고 말할 수 있습니다.
"통계"라는 용어는 JC Maxwell에 의해 분자 기사 ( Nature 8, 1873, pp. 437–441)에 아름답게 설명되어 있습니다. 관련 구절을 인용하겠습니다.
섹션 F의 실무진이 인구 조사 보고서 또는 경제 및 사회 과학의 수치 데이터를 포함하는 기타 문서를 보유 할 때, 연령, 소득세, 교육, 종교적 신념 또는 범죄 유죄 판결. 개인의 수는 각자의 역사를 개별적으로 추적 할 수 없을 정도로 너무 커서, 사람의 한계 내에서 노동을 줄이기 위해 소수의 인공 그룹에 관심을 집중시킵니다. 각 개인의 다양한 상태가 아니라 각 그룹의 다양한 개인이 그들이 일하는 기본 데이터입니다.
물론 이것이 인간의 본성을 연구하는 유일한 방법은 아닙니다. 우리는 개별 남성의 행동을 관찰하고 기존의 최고의 이론에 따라 이전 인물과 현재 상황이 우리를 기대하게 만든 행동과 비교할 수 있습니다. 이 방법을 수행하는 사람들은 천문학자가 행성의 실제 위치를 수신 된 요소에서 추론 한 것과 비교하여 행성의 요소를 수정하는 것과 거의 같은 방식으로 인간 본성의 요소에 대한 지식을 향상 시키려고 노력합니다. 그러므로 부모와 교직원, 역사가 및 정치가에 의한 인간 본성 연구는 등록 기관과 표 작성자, 그리고 믿음을 가진 정치가에 의해 수행되는 것과 구별되어야한다. 하나는 기록이라고하고 다른 하나는 통계적 방법이라고 할 수 있습니다.
역학 방정식은 물질에 적용되는 역사적 방법의 법칙을 완전히 표현하지만 이러한 방정식의 적용은 모든 데이터에 대한 완벽한 지식을 의미합니다. 그러나 우리가 실험 할 수있는 물질의 가장 작은 부분은 수백만 개의 분자로 구성되며, 그중 하나는 우리에게 개인적으로 합리적이지 않습니다. 그러므로 우리는이 분자들 중 어느 하나의 실제 운동을 확인할 수 없어서 엄격한 역사적 방법을 포기하고 큰 분자 그룹을 다루는 통계적 방법을 채택해야한다.
그는 몇 가지 다른 작업에서 통계적 방법에 대한이 설명을 제공합니다. 예를 들어, "통계 조사 방법에서 우리는 운동 중 시스템을 따르지 않지만 특정 단계에주의를 기울이고 시스템이 해당 단계에 있는지 여부와 단계에 들어갈 때를 확인합니다. 그리고 그것이 떠날 때 "(Trans. Cambridge Philos. Soc. 12, 1879, 547-570 쪽).
맥스웰의 "확률"에 대한 또 다른 아름다운 구절이있다 (1850 년 서기 , 제임스 클러 크의 생애 , 143 쪽).
논리의 실제 과학은 현재 확실하거나 불가능하거나 완전히 의심스러운 것들에 대해서만 대화하고 있으며, 그 중 어느 것도 우리가 추론 할 필요가 없습니다. 그러므로이 세상의 진정한 논리는 확률의 계산법으로 확률의 크기 (또는 합리적인 사람의 마음에 있어야 함)를 고려합니다.
그래서 우리는 말할 수 있습니다 :
– 통계에서 우리는 "작은 수의 인공 그룹에 관심을 집중하고있다"또는 수량; 우리는 일종의 목록 화 또는 인구 조사를 만들고 있습니다.
– 일부 사건 또는 수량에 대한 불확실성을 계산할 가능성 이 있습니다.
이 둘은 별개이며, 다른 하나 없이도 할 수 있습니다.
예를 들어, 한 국가의 전체 인구에 대해 완전한 인구 조사를하고 연령, 성별 등과 같은 특정 그룹에 속하는 정확한 수의 사람들을 세면 통계를 수행하는 것입니다. 우리가 찾은 숫자는 정확하고 알려져 있기 때문에 불확실성 – 확률 –은 없습니다.
다른 한편으로, 누군가 길거리에서 우리 앞에서 지나가는 것을 상상해보십시오. 그리고 우리는 그들의 나이에 대해 궁금합니다. 이 경우에 우리는 불확실하고 확률을 사용하지만 어떤 종류의 센서스 나 카탈로그를 만들지 않기 때문에 관련된 통계는 없습니다.
그러나이 둘은 함께 발생할 수도 있습니다. 인구에 대한 완전한 인구 조사를 할 수 없다면, 특정 연령 성별 그룹에 몇 명의 사람들이 있는지 추측 해야합니다 . 따라서 통계를 수행하는 동안 확률을 사용하고 있습니다. 반대로, 우리는 사람들의 나이에 관한 정확한 통계 데이터를 고려할 수 있으며, 그러한 데이터로부터 우리 앞에 지나가는 사람에 대한 더 나은 추측을 시도합니다. 따라서 우리는 확률을 결정하면서 통계를 사용하고 있습니다.