평신도의 관점에서 모델과 분포의 차이점은 무엇입니까?


28

Wikipedia에 정의 된 답변 (정의)은 아마도 수학 / 통계에 익숙하지 않은 사람들에게는 약간의 암호입니다.

수학적 용어로, 통계 모델은 일반적으로 쌍 ( ) 으로 생각되며 , 여기서 S 는 가능한 관측치 세트, 즉 샘플 공간이고 PS 의 확률 분포 세트입니다 .S,PSPS

확률 및 통계에서 확률 분포는 확률 실험에서 임의의 실험, 조사 또는 통계적 추론 절차의 가능한 결과 중 각 측정 가능한 하위 집합에 확률을 할당합니다. 표본 공간이 숫자가 아닌 예가 있으며, 여기서 분포는 범주 형 분포입니다.

저는이 분야에 취미로 관심이 많은 고등학생이며 현재 a statistical model와 a 의 차이점으로 어려움을 겪고 있습니다 .probability distribution

내 현재의 매우 기초적인 이해는 다음과 같습니다.

  • 통계 모델은 측정 된 분포를 근사화하려는 수학적 시도입니다.

  • 확률 분포는 확률을 랜덤 이벤트의 각 가능한 결과에 할당하는 실험의 설명입니다.

혼동은 문헌에서 "분포"와 "모델"이라는 단어가 상호 교환 적으로 사용되거나 최소한 매우 유사한 상황 (예 : 이항 분포 대 이항 모델)을 보는 경향에 의해 더욱 복잡해집니다.

누군가 내 정의를 확인 / 수정하고 이러한 개념에 대해 공식화 된 (단순한 영어로도) 접근 방식을 제공 할 수 있습니까?


1
결론 : 통계 모델과 확률 분포 사이에는 전혀 차이가 없습니다. 모든 통계 모델은 확률 분포를 나타내며 그 반대도 마찬가지입니다. 그들이 당신을 긴 텍스트와 혼동하지 마십시오.
Cagdas Ozgenc

3
정의에 따라 질문에 인용 @Cagdas있을 것이다 차이 : 통계 모델은 확률 분포의 특정 조직 집합이다. 하나의 확률 분포 만 증명되면 통계 분석의 목표가 달성되었으므로 더 이상 통계를 수행하지 않습니다. 분포를 알고 있습니다!
whuber

2
@cagdas Wikipedia는 최고의 텍스트로 회사를 유지합니다. 나는 그것에 완전히 동의합니다.
whuber

4
@CagdasOzgenc, 귀하의 날카 롭고 명확한 주장을 뒷받침하는 증거를 제시하십시오. 권위에 의한 증거는 거의 받아 들여지지 않습니다. 증거 없이는 생산적인 토론을하는 것이 어렵다 (가능하지는 않지만). 근거없는 주장은 거의 소음 이상의 것이 아닙니다.
Richard Hardy

2
@RichardHardy 질문은 "레이맨 용어"를 물었고 그가 얻은 답변을 봅니다. 실례지만 누군가가 과시하기로 결정했기 때문에 학생들이 고통받는 것을 싫어합니다. 대답은 2 + 2 = 4만큼 간단하며 실제로 20 페이지의 권위있는 참조가 필요하다고 생각하지 않습니다.
Cagdas Ozgenc

답변:


25

확률 분포 는 랜덤 변수를 설명하는 수학 함수입니다. 좀 더 정확하게는 확률을 숫자에 할당하는 함수이며 출력은 확률 공리 와 일치해야합니다 .

통계 모델은 확률 분포를 사용하여 수학 용어로 일부 현상에 대한 추상적이고 이상적인 설명입니다. 인용 구장 (2013) :

FF

일반적으로 파라 메트릭 모델은

F={f(x;θ):θΘ}

θ ΘθθF

대부분의 경우 분포 모델 사용 합니다 ( 이 예제를 확인할 수 있음 ). 이항 분포 일련의 동전 던지기에서 헤드 수의 모델 사용할 수 있습니다 . 이 경우이 분포는 실제 결과를 단순화 된 방식으로 설명한다고 가정합니다. 이것은 이것이 당신이 그러한 현상을 묘사 할 수있는 유일한 방법임을 의미하는 것은 아니며, 이항 분포가이 목적으로 만 사용될 수있는 것도 아닙니다. 모델은 하나 이상의 분포를 사용할 수있는 반면 베이지안 모형 은 이전 분포도 지정합니다.

더 공식적으로 이것은 McCullaugh (2002)에 의해 논의되었습니다.

SΘP:ΘP(S)θΘPθSP(S)SP:ΘP(S)PΘP(S)

따라서 통계 모델 확률 분포를 사용 하여 데이터를 용어로 설명합니다. 파라 메트릭 모델은 또한 유한 매개 변수 세트로 설명됩니다.

그렇다고 모든 통계적 방법에 확률 분포가 필요한 것은 아닙니다. 예를 들어, 선형 회귀는 종종 정규성 가정의 관점에서 설명 되지만 실제로는 정규성에서 벗어나기에는 매우 강력하며 신뢰 구간 및 가설 검정에 대한 오차의 정규성에 대한 가정이 필요합니다. 따라서 회귀가 작동하려면 이러한 가정이 필요하지 않지만 통계 모델을 완전히 지정하려면 임의 변수 로 설명해야 합니다.확률 분포가 필요합니다. 나는 사람들이 데이터에 회귀 모델을 사용했다는 말을 자주들을 수 있기 때문에 이것에 대해 글을 씁니다. 대부분의 경우 조건 조건을 주장하는 것보다 일부 매개 변수를 사용하여 대상 값과 예측 변수 간의 선형 관계 측면에서 데이터를 설명한다는 의미입니다 정상.


McCullagh, P. (2002). 통계 모델이란 무엇입니까? 통계의 연재 , 1225-1267.

Wasserman, L. (2013). 모든 통계 : 통계적 추론의 간결한 과정. 봄 병아리.


4
@ JCLeitão 그렇기 때문에 통지를 추가했습니다.) 고전적인 OLS는 단지 라인에 적합합니다. 정규성 가정은 노이즈에 관한 것이며 핵심 아이디어는 우리가 X의 선형 함수로 E (y)를 모델링한다는 것입니다. 신뢰 구간과 테스트에는 정규성이 필요하지만 회귀는 선을 맞추는 것에 관한 것이며 오류는 덜 중요합니다. (느슨하게 말하기)

답변 주셔서 감사합니다. 요약 할 두 가지 간결한 정의를 제공 할 수 있습니까? (또한 마지막 줄을 이해하지 못합니다 In much of the following, it is important to distinguish between the model as a function and the associated set of distributions) 같은 용어를 공유하는 두 가지 의미 사이에 고유 한 모호성을 언급 model하고 있습니까?
AlanSTACK

@Alan 두 가지 간결한 정의가 첫 번째 두 단락에 제공되며 인용문 및 참고 문헌에서보다 엄격한 정의가 제공됩니다. 마지막 인용 줄에 관해서는 : 기본적으로 모델은 확률 분포와 모수로 정의되어 있으며 두 가지 측면이 있다는 것을 기억하는 것이 좋습니다. 때때로 구별하는 것이 좋습니다. 나는 인용 된 논문을 엄격한 토론을 위해 추천한다 (링크에서 자유롭게 구할 수있다).

8

S

P

번호 가 티켓 에 일관된 방식으로 기록 되면 (확률) 분포가 발생합니다. 확률 분포가 단순히 숫자 주어진 구간 내에있는 상자에 티켓의 비율을 설명한다.

PP


y0100

0100

0100y0y100y0y100관찰 은 실험에서 관찰 가능한 결과를 나타냅니다 . 상자에 이러한 각 티켓 세트가 있습니다 . 주어진 속도 상수에 대해 관찰 할 있는 확률 모델 입니다 .

y0y100

y0y100

각 티켓에 기록 된 관측 값은 숫자이므로 확률 분포가 발생합니다. 박스에 대한 가정은 일반적으로 평균이 0이되어야하는지, 대칭이되어야하는지, "벨 곡선"모양을 가지고 있는지, 상관이 없는지 등과 같은 분포의 특성 측면에서 표현됩니다.


그게 전부입니다. 프리미티브 12 톤 스케일이 모든 서양 클래식 음악을 불러 일으킨 것처럼, 티켓이 들어있는 박스 모음은 매우 풍부하고 복잡한 방식으로 사용될 수있는 단순한 개념입니다. 코인 플립에서부터 비디오 라이브러리, 웹 사이트 상호 작용 데이터베이스, 양자 역학 앙상블 및 관찰 및 기록 할 수있는 모든 것에 이르기까지 거의 모든 것을 모델링 할 수 있습니다.


3

π

일반적인 모수 통계 모델은 분포의 모수 (들)가 요인 (이산 값을 갖는 변수) 및 공변량 (연속 변수)과 같은 특정 요소에 어떻게 의존하는지 설명합니다. 예를 들어, 정규 분포에서 평균을 고정 수 ( "절편")와 공변량 값의 몇배 ( "회귀 계수")로 설명 할 수 있다고 가정하면 정규 분포 오차 조건. 이항 분포의 경우 일반적으로 사용되는 모형 ( "물류 회귀")ππ/(1π)intercept+β1covariate1+


2
예,하지만 ... 모델은 매개 변수에 관한 것이 아니라 문제의 구조에 관한 것일 수도 있습니다 (예 : 가정 된 데이터 생성 프로세스와 유사한 확률 모델). 비모수 적 모델도 있습니다.

2

확률 분포는 임의의 수량 변동 방법에 대한 모든 정보를 제공합니다. 실제로 우리는 일반적으로 관심 수량의 전체 확률 분포가 없습니다. 우리는 그것에 대해 모든 것을 알고 있다고 생각하거나 가정하지 않고 그것에 대해 무언가를 알고 가정 할 수 있습니다. 예를 들어, 일부 수량은 정규 분포이지만 평균과 분산에 대해서는 아무것도 모릅니다. 그런 다음 배포판 중에서 선택할 수있는 후보 모음이 있습니다. 이 예에서는 가능한 모든 정규 분포입니다. 이 분포 모음은 통계 모델을 형성합니다. 우리는 데이터를 수집 한 다음 후보 클래스를 제한하여 나머지 모든 후보가 적절한 의미에서 데이터와 일치하도록합니다.


2

모델은 PDF로 지정되지만 PDF는 아닙니다.

확률 분포 (PDF)는 숫자에 확률을 할당하는 함수이며 Tim의 설명 과 같이 결과는 확률의 공리와 일치해야합니다 .

모델은 확률 분포에 의해 완전히 정의되지만 그 이상입니다. 동전 던지기 예에서, 우리의 모델은 "동전이 공평합니다"+ "각 던지기는 독립적입니다". 이 모델은 p = 0.5 인 이항 PDF로 지정됩니다.

P(x1,x2,x3,...)

모델과 PDF의 한 가지 차이점은 모델을 통계 가설로 해석 할 수 있다는 것입니다. 예를 들어, 동전 던지기에서 동전이 공평하고 (p = 0.5), 각 던지기가 독립적 (이항) 인 모델을 고려할 수 있으며, 이것이 우리의 가설이라고 말하며 경쟁 가설에 대해 테스트하려고합니다. .

pp


마지막 문장을 자세히 설명해 주시겠습니까? 그것은 비모수 통계의 주요 부분 인 것 같습니다.
Ian

나는 항상 x_i의 PDF에서 비모수 적 모델을 덜 제한적인 것으로 해석했지만 사용하는 통계에는 여전히 PDF가 필요합니다. 예를 들어 Kendal 순위 상관 관계 는 p- 값을 계산하는 정규성을 가정합니다 . 그러나 반대의 예가있을 수 있습니다. 관심이 있습니다.
Jorge Leitao

"경쟁 PDF를 말하는 것이 이치에 맞지 않다"고 말할 때의 의미를 이해하지 못합니다. 이것은 파라 메트릭 통계에서도 우리가 실제로하고있는 것입니다. 문제에 대해 유효한 것으로 생각되는 PDF가 많고 일부 데이터를 가져 왔으며 데이터에서 일부 PDF가 더 나은 것으로 결론을 내립니다. 그런 다음 "더 나은"이라는 의미를 정량화합니다. (또한 기초적인 맥락에서, 당신은 정말로 모든 것에 "PDF"를 사용해서는 안됩니다. 분배의 의미에서 이것은 궁극적으로 효과가 있지만, 이것은 매우 정교한 기계입니다 ...)
Ian

A model is specified by a PDF동의하지 않습니다. 여러 PDF로 모델을 지정할 수도 있습니다. 그리고 PDF가없는 모델도 지정할 수 있습니다. SVM 또는 회귀 트리와 같은 것을 생각하십시오.
Ricardo Cruz

2

Alan에게 매우 중요한 질문을했으며 위의 몇 가지 훌륭한 답변을 받았습니다. 더 간단한 답변을 제공하고 위의 답변으로 해결되지 않은 차이점에 대한 추가 차원을 제시하고 싶습니다. 간단히하기 위해 여기서 말할 것은 파라 메트릭 통계 모델과 관련이 있습니다.

y=ax2+bx+cy=mx+bF=kxmbk

그래서, 귀하의 질문에 대한 저의 간단한 답변 # 1 은 통계 모델이 분포의 패밀리입니다.

더 나아가고 싶은 것은 한정자, 통계와 관련이 있습니다. 유대 진주가 그의 "원인 분석의 황금률"[1, p350]에서 지적한 것처럼,

성향 스코어, 회귀, 계층화 또는 기타 분포 기반 설계 등 순수한 통계적 방법으로는 인과 적 주장을 할 수 없습니다.

F=kx 즉 확률 분포에 대한 진술.

따라서 귀하의 질문에 대한 제 2 대답은 다음과 같습니다. 모델은 일반적으로 순수한 분포 용어로 표현할 수없는 인과 아이디어를 구현합니다.


[1] : 진주, 유대. 인과 관계 : 모델, 추론 및 추론. 2 판. 영국 케임브리지; 뉴욕 : Cambridge University Press, 2009. 인용 된 p. 351.


나의 무지를 용서해라. 그러나 그 단어와 함께 무엇을 의미 causal하는가? 그것에 좀 더 미묘한 의미가 있는가 또는 단순히의 개념을 참조 않습니다 causality사이의 결합 관계 causeseffects? 답변 주셔서 감사합니다, btw.
AlanSTACK

FxF=kx=
David C. Norris
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.