"독립적 관찰"은 무엇을 의미합니까?


28

독립적 인 관찰가정이 의미 하는 바를 이해하려고합니다 . 일부 정의는 다음과 같습니다.

  1. " 인 경우에만 두 개의 이벤트가 독립적 입니다." ( 통계 용어 사전 )P(ab)=P(a)P(b)
  2. "한 사건의 발생은 다른 사건의 확률을 변화시키지 않습니다"( Wikipedia ).
  3. "한 관측의 표본 추출은 두 번째 관측의 선택에 영향을 미치지 않습니다"( David M. Lane ).

종종 제공되는 의존적 관찰의 예는 아래와 같이 교사들에게 내포 된 학생들입니다. 교사가 학생에게 영향을 주지만 서로 영향을 미치지 않는다고 가정 해 봅시다.

그렇다면 이러한 데이터에 대한 이러한 정의는 어떻게 위반됩니까? [학생 = 1]에 대한 샘플링 [grade = 7]은 다음에 샘플링 될 성적의 확률 분포에 영향을 미치지 않습니다. (또는 그렇게합니까? 그렇다면 그렇다면 관측치 1은 다음 관측치에 대해 무엇을 예측합니까?)

내가 gender 대신 측정했다면 왜 관측치가 독립적 teacher_id일까요? 그들은 같은 방식으로 관측에 영향을 미치지 않습니까?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

4
교사 1의 성적 분포가 교사 2보다 "평균"값이 낮았으므로 교사 1의 학생은 모두 교사 2의 학생보다 평균적으로 낮은 성적을 갖는 경향이 있습니다. 두 교사의 학생 / 학년 분포는 다른 분포 일 수 있습니다. 관측치에 의존하기에 충분합니다.
복원 Monica Monica-G. Simpson

1
@GavinSimpson :이 정확한 추론에 대해 생각하고 있습니다. 그러나, 나는 무엇을 대체하는 경우 teachergender? 성별은 대부분의 사회 과학 데이터에 존재하며 거의 모든 것과 관련이 있습니다.
RubenGeert

1
반드시 응답에 의존해야합니다. 우리가 영국의 과학에서 학생들의 성적을보고 있다면, 아마도 여러분이 공부하는 인구 대해 두 성별에 대한 다른 성취 분포에 영향을 미칠 것 입니다. 어쨌든,이 모든 것은 잔차에 대해서만 (통계 모델에서) 중요하거나 적합 된 모델에 대한 조건에 따라 다르게 반응합니다. 다시 말해서, 관측치가 독립적이지 않은 경우, 잔차가 독립적이되도록 모형이이를 설명하는 한 괜찮습니다.
복원 모니카

4
인과 관계를 참조하지 않고 독립성을 정의 할 수 있으므로 (통계) 독립 정의 로 (1) 또는 (2)를 사용할 수 없습니다. 세 가지 인용문은 모두 비공식적이고 직관적 인 예 를 제공하려는 노력 일뿐 입니다. ((3) 정보량에 대한 정량적이고 엄격한 정의에 액세스 할 수 있다면 정의로 간주 될 수 있습니다.) "정의"제목 아래에 나타나는 것과 같은 실제 정의를 참조하는 것이 좋습니다. Wikipedia 기사에서 참조하십시오.
whuber

1
아니요, 잔차를 독립적으로 렌더링 할 수 있습니다 (또는 잔차가 독립적으로 보일 정도로 종속성을 줄입니다). 이것은 선형 모델의 가정에서 비롯됩니다. 여기서 Λ 는 상관 행렬입니다. 일반적인 가정은 Λ 가 항등 행렬이므로 외각이 0이므로 독립성의 가정은 잔차에 대한 것입니다. 다시 말하면, 이것은 적합 모델 대한 조건부 y에 대한 진술 입니다. εN(0,σ2Λ)ΛΛy
복원 Monica Monica-G. Simpson

답변:


11

확률 이론에서 통계적 독립성 (인과 적 독립성과 같지 않음)은 속성 (3)으로 정의되지만 (1)은 결과 로 따릅니다 . 이벤트 AB다음 과 같은 경우에만 통계적으로 독립적이라고합니다.AB

P(AB)=P(A)P(B).

만약 다음 경우가 다음과 같다 :P(B)>0

P(A|B)=P(AB)P(B)=P(A)P(B)P(B)=P(A).

이는 통계적 독립성은 한 사건의 발생이 다른 사건의 확률에 영향을 미치지 않음을 의미합니다. 이것을 말하는 또 다른 방법은 한 사건의 발생이 다른 사건에 대한 당신의 믿음을 바꾸지 않아야한다는 것입니다. 통계적 독립의 개념은 일반적으로 연속적인 랜덤 변수 (특정 결과의 확률이 0 인)를 포함하여 랜덤 변수에 대해 유사한 진술을 할 수있는 방식으로 이벤트에서 랜덤 변수로 확장됩니다. 랜덤 변수에 대한 독립 처리에는 기본적으로 분포 함수에 적용되는 동일한 정의가 포함됩니다.


독립성이 매우 강력한 속성 이라는 것을 이해하는 것이 중요 합니다. 사건이 통계적으로 독립적 인 경우 (정의상) 우리는 다른 것을 관찰하는 것에 대해 배울 수 없습니다. 이러한 이유로 통계 모델에는 일반적으로 일부 기본 분포 또는 모수를 고려할 때 조건부 독립성의 가정이 포함 됩니다. 정확한 개념 틀은 베이지안 방법을 사용하는지 아니면 고전적인 방법을 사용하는지에 달려 있습니다. 전자는 관찰 가능한 값 사이의 명시 적 의존성을 포함하는 반면 후자는 (복잡하고 미묘한) 암시 적 의존성을 포함합니다. 이 문제를 제대로 이해하려면 고전 통계와 베이지안 통계를 약간 이해해야합니다.

X1,X2,X3,...IID N(μ,σ2)Xiμσ. 시퀀스의 각 랜덤 변수는 결과가 다른 값의 명시된 분포를 변경하지 않는다는 점에서 다른 변수와 "독립적"입니다. 이런 종류의 모델에서는 시퀀스의 관측 값을 사용하여 모델의 매개 변수를 추정 한 다음 시퀀스의 관찰되지 않은 값을 예측할 수 있습니다. 이것은 반드시 다른 것에 대해 배우기 위해 관찰 된 값을 사용해야합니다.

X1,X2,X3,...μσ

X1,X2,X3,...μσ이러한 매개 변수를 "알 수없는 상수"로 취급하십시오. 매개 변수는 상수로 취급되므로이 경우 조건부 독립과 무조건 독립 사이에 명확한 차이가 없습니다. 그럼에도 불구하고 여전히 관측 값을 사용하여 모수를 추정하고 관찰되지 않은 값을 예측합니다. 따라서, 우리는 관찰 된 결과를 사용하여 나중에 "관찰 적이 지 않은"결과 일지라도 나중에 관찰되지 않은 결과를 예측합니다. 이 명백한 불일치에 대해서는 O'Neill, B. (2009) Exchangeability, Correlation and Bayes 'Effect 에 자세히 설명되어 있습니다. 국제 통계 검토 77 (2) , 241-250 쪽 .


당신이 가정에 의해 아마, 학생 성적 데이터에 같은 모델 뭔가를이 것이 적용하면 grade입니다 조건부 독립 주어진 teacher_id. 데이터를 사용하여 각 교사의 채점 분포에 대해 추론 할 수 있습니다 (동일하지 않은 것으로 간주 됨). 그러면 grade다른 학생 의 미지 에 대해 예측할 수 있습니다 . grade변수는 추론에 사용 되므로 grade다른 학생에 대한 알 수없는 변수에 대한 예측에 영향을 미칩니다 . 교체 teacher_idgender이 변경되지 않습니다; 두 경우 모두의 예측 변수로 사용할 수있는 변수가 있습니다 grade.

Bayesian 방법을 사용하면 조건부 독립성을 명시 적으로 가정하고 교사의 학년 분포에 대한 사전 분배를 받게되며, 이는 무조건적 (예측) 성적 의존도 를 초래하여 다른 학년에 대한 예측에서 한 학년을 합리적으로 사용할 수있게합니다. 고전 통계를 사용하는 경우 독립성을 가정하고 ( "알 수없는 상수"인 매개 변수를 기반으로) 고전 통계 예측 방법을 사용하여 한 등급을 사용하여 다른 등급을 예측할 수 있습니다.



6
통계적 독립성은 답의 첫 부분에서 설명하는 것입니다. 그러나 당신의 문장은 "... 사건들이 통계적으로 독립적이라면 (정의 적으로) 우리는 다른 것을 관찰하는 것에 대해 배울 수 없습니다." 이다 노골적으로 잘못된. 세계는 통계적으로 독립적이지만 비슷한 사건과 임의 변수 로 가득 합니다.
Alecos Papadopoulos

1
"학습"이란 다른 것에 대한 관찰에 근거한 것에 대한 우리의 믿음을 바꾸는 것을 의미하지 않습니까? 그렇다면 독립성이 (정의 적으로) 이것을 배제하지 않습니까?
Reinstate Monica

6
FF

4
FFFF

2
이 문제의 어려움은 고전 통계가 기본 분포와 모수를 "알 수없는 상수"로 취급하므로 조건부 또는 무조건 부 독립성을 명시 적으로 구분하지 않는다는 것입니다. 베이지안 통계에서는 매우 간단합니다.
Reinstate Monica

4

x=(X1,...,Xj,...,Xk)k

ni=1,...,n

xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k 차원 벡터는 "관측"입니다 (임의의 임의 변수의 실현을 측정하고 기록하면 실제로는 하나가되지만).

fi(xi),i=1,...,nf(x1,...,xi,...,xn)

S

f(x1,...,xi,...,xn)=i=1nfi(xi),(x1,...,xi,...,xn)DS

DSn

이것은 "관측"이 "공동 적으로 독립적"(통계적 의미에서, 또는 오늘날에도 여전히 보이는 오래된 말처럼 "독립적으로 독립적")임을 의미합니다. 습관은 단순히 "독립적 관찰"이라고 부르는 것입니다.

i

밀도가없는 연속 랜덤 변수가있는 경우 위의 분포 함수로 표현할 수 있습니다.

이것이 "독립적 관찰"의 의미 입니다. 수학 용어로 표현되는 정확하게 정의 된 속성입니다. 그것의 의미를 보자 .

독립적 인 관찰을 갖는 몇 가지 결과

A. 두 개의 관측치가 공동으로 독립적 인 관측치 그룹의 일부인 경우 "통계적으로 독립적"입니다 (통계적으로).

f(xi,xm)=fi(xi)fm(xm)im,i,m=1,...,n

이는 조건부 PMF / PDF가 "마지막"과 동일하다는 것을 의미합니다.

f(xixm)=fi(xi)im,i,m=1,...,n

이것은 조건부 또는 조건부와 같은 많은 논쟁을 일반화합니다.

f(xi,xxm)=f(xi,x),f(xixm,x)=fi(xi)

왼쪽의 색인이 세로선의 오른쪽에있는 색인과 다른 한 등입니다.

이것은 우리가 실제로 하나의 관측을 관찰한다면, 표본의 다른 관측을 특징 짓는 확률은 변하지 않음을 의미합니다. 따라서 예측 과 관련 하여 독립 샘플은 우리의 가장 친한 친구가 아닙니다. 우리는 각각의 관찰이 다른 관찰에 대해 더 많은 것을 말할 수 있도록 의존성을 선호합니다.

B. 반면, 독립 샘플은 최대 정보 내용을 가지고 있습니다. 독립적 인 모든 관찰은 표본의 다른 관찰에 의해 전체적으로 나 부분적으로 추론 할 수없는 정보를 전달합니다. 따라서 총 관측치는 일부 관측치간에 통계적 의존성이있는 비교 가능한 표본과 비교하여 최대입니다. 그러나이 정보가 예측 개선에 도움이되지 않는다면 어떤 정보를 사용합니까?

음, 이것은 샘플에서 랜덤 변수를 특성화하는 확률에 대한 간접 정보입니다. 이러한 관측치에 공통적 인 특성 (이 경우 공통 확률 분포)이 많을수록 표본이 독립적 인 경우 더 잘 파악할 수 있습니다.

즉, 표본이 독립 적이고 "동일하게 분포 된"경우

fi(xi)=fm(xm)=f(x),im

f(x)fj(xji)

f(xixm)=fi(xi)xi fi

따라서 추정 (때로는 포괄적 인 용어로 사용되지만 여기서는 예측 개념과 구별되어야 함 )과 관련하여 독립 표본 "동일 분포"와 결합 된 경우 "가장 친한 친구"입니다. "속성.

C. 또한 공통 특성이 전혀없는 완전히 다른 확률 분포를 특징으로하는 독립적 인 관측 표본은 다음과 같이 얻을 수있는 정보 의 수집 만큼 가치가 없다 (물론 자체적으로 모든 정보는 합당하게, 여기서 문제는 이것들을 결합하여 유용한 것을 제공 할 수 없다는 것입니다.) 하나는 남미의 과일 (양적 특성), 다른 하나는 유럽의 산, 다른 하나는 아시아의 옷을 포함하는 세 가지 관측치가 포함 된 표본을 상상해보십시오. 세 가지 모두 흥미로운 정보를 수집하지만 표본으로 함께 사용하면 통계적으로 유용한 정보를 얻을 수 없습니다.

다른 방법으로, 독립 표본이 유용하기 위해 필요하고 충분한 조건은 관측치에 공통적 인 통계 특성이 있다는 것입니다. 이것이 통계에서 "샘플"이라는 단어가 일반적으로 "정보 수집"과 동의어가 아니라 "일부 공통된 특징을 가진 엔티티에 대한 정보 수집"과 동의어입니다.

OP의 데이터 예에 적용

사용자 @gung의 요청에 응답하여 위의 관점에서 OP의 예를 살펴 보겠습니다. 우리는 2 명 이상의 교사와 6 명 이상의 학생이있는 학교에 있다고 가정합니다. 따라서 a) 학생과 교사를 모두 샘플링하고 있으며 b) 각 교사-학생 조합에 해당하는 성적을 데이터 세트에 포함시킵니다.

GPTS=(s1,...,s6)

s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)

PiGi
T1,T2

s1,s2,s3T1s4,s5,s6T2

"동일한 랜덤 변수"와 "동일한 분포를 갖는 두 개의 서로 다른 랜덤 변수"의 구분에주의하십시오.

s1,s2,s3T1s4,s5,s6T2

이제 샘플에서 무작위 변수 "교사"를 제외 한다고 가정합니다 . 6 개의 관측치 중 (Pupil, Grade) 표본이 독립 표본입니까? 여기에서 교사, 학생 및 학년 간의 구조적 관계가 무엇인지에 대한 가정은 중요합니다.

T1T2G1,G2,G3T1

그러나 교사는 그 점에서 동일하다고 말하십시오. 그런 다음 "선생님이 학생에게 영향을 미칩니다"라는 가정하에 교사가 성적에 영향을 미치는 학생에게 영향을 미치기 때문에이 세 가지 관찰은 서로 의존적이라는 것을 다시 한 번 알 수 있습니다. 다른 세). 다시, 샘플은 독립적이지 않습니다.

성별 사례

GeM,F

s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)

우리가 관련 성별로 샘플의 설명에 포함 된 것입니다 신중하게 참고 하지 가 각 학생 걸리는 실제 값, 하지만 확률 변수 "성별" . 이 매우 긴 대답의 시작 부분을 되돌아보십시오. 샘플은 숫자 모음 (또는 고정 숫자 또는 일반적으로 값 이 아닌)으로 정의 되지 않지만 임의의 변수 (예 : 함수)로 정의됩니다.

Gei1Ge1P2,P3,...그런 다음 관측간에 또 다른 가능한 의존성의 원천이됩니다. 마지막으로, 학생의 성별이 다른 학생의 성적에 직접 영향을 줍니까? 그렇지 않다고 주장 하면 독립적 인 표본을 얻습니다 (동일한 교사를 가진 모든 학생에게 조건부).


나는 당신의 관점 B에 동의하지 않습니다. 평균을 추정하는 것과 같은 어떤 목적으로, 음의 상관 관계는 독립보다 낫습니다.
kjetil b halvorsen

어떤 의미에서 더 나은가요?
Alecos Papadopoulos

텍스트의 OP 질문에 구체적으로 연결할 수 있다면 도움이 될 것입니다. 이 점을 감안하면 나열된 관측치가 독립적이지 않다는 것을 어떻게 알 수 있습니까? 교사를 떠나는 것이 섹스를 떠나는 것과 어떻게 다릅니 까?
gung-복직 모니카

@ gung 나는 당신이 제안한 라인을 따라 약간의 정교함을 포함시켰다.
Alecos Papadopoulos

더 나은 분산을 저감하는 의미에서
할보 kjetil B

2

게시물에서 제공하는 통계적 독립성의 정의는 모두 본질적으로 정확하지만 통계 모델 에서 독립성 가정 의 핵심에 도달하지는 않습니다 . 통계 모델에서 독립적 인 관찰의 가정에 의해 우리가 의미하는 바를 이해하려면 통계 모델이 개념 수준에 있는지 다시 방문하는 것이 도움이 될 것입니다.

"자연의 주사위"에 대한 근사치로서의 통계 모델

친숙한 예를 들어 보자. 우리는 잘 정의 된 인구 (예 : 지구상의 모든 성인 인간)에서 성인 인간의 무작위 표본을 수집하고 신장을 측정합니다. 우리는 인구가 성인 인간의 평균 신장을 추정하고 싶습니다. 이를 위해, 우리는 사람들의 키가 정규 분포에서 발생한다고 가정하여 간단한 통계 모델을 구성합니다.

정규 분포가 자연이 사람들의 높이를 어떻게 "선택"하는지에 대한 근사치를 제공한다면 우리 모델은 좋은 모델이 될 것입니다. 즉, 정규 모델에서 데이터를 시뮬레이션하는 경우 결과 데이터 집합이 자연적으로 관찰되는 것과 통계적으로 비슷합니까? 우리 모델의 맥락에서, 우리의 난수 생성기는 자연이 무작위로 선택된 인간의 신장 ( "자연의 주사위")을 결정하기 위해 사용하는 복잡한 확률 적 과정의 좋은 시뮬레이션을 제공합니까?

간단한 모델링 컨텍스트에서 독립 가정

정규 분포에서 난수를 그려서 "자연의 주사위"에 근접 할 수 있다고 가정했을 때, 정규 분포에서 단일 숫자를 그린 다음 그 높이를 모든 사람에게 할당한다는 의미는 아닙니다. 우리는 동일한 정규 분포에서 모든 사람의 숫자를 독립적으로 그릴 것임을 의미했습니다. 이것이 우리의 독립 가정입니다.

우리의 성인 표본이 무작위 표본이 아니라 소수의 가족에서 나온 것이라고 상상해보십시오. 일부 가정에서는 키가 크고 다른 가정에서는 키가 부족합니다. 우리는 이미 모든 성인의 키가 하나의 정규 분포에서 나온다고 가정하고 싶다고 말했습니다. 그러나 정규 분포에서 샘플링하면 샘플과 매우 유사한 데이터 세트가 제공되지 않습니다 (샘플은 "클럼프"지점, 일부는 짧고 키가 크며 각 클럼프는 패밀리 임). 표본 에서 사람의 키는 전체 정규 분포에서 독립적으로 도출 되지 않습니다 .

더 복잡한 모델링 컨텍스트에서 독립 가정

그러나 모든 것이 잃어버린 것은 아닙니다! 우리는 샘플의 더 나은 모델, 즉 키의 독립성을 유지하는 더 나은 모델을 작성할 수 있습니다. 예를 들어, 대상이 속한 가족에 따라 다른 평균을 갖는 정규 분포에서 키가 발생하는 선형 모델을 작성할 수 있습니다. 이러한 맥락에서 정규 분포 는 가족의 영향을 고려한 후에 잔차 변동을 설명합니다 . 정규 분포의 독립 표본이이 잔차 변동에 적합한 모델 일 수 있습니다.

여기에서 전반적으로 우리가 한 일은 연구의 맥락에서 자연의 주사위가 어떻게 행동 할 것인지에 대한보다 정교한 모델을 작성하는 것입니다. 좋은 모형을 작성함으로써, 모형의 임의의 부분 (즉, 가족 평균 주위의 임의의 변동)이 모집단의 각 구성원에 대해 독립적으로 샘플링된다고 가정하면 여전히 정당화 될 수 있습니다.

일반 모델링 컨텍스트에서 (조건부) 독립성 가정

일반적으로 통계 모델은 데이터가 일부 확률 분포에서 발생한다고 가정하여 작동합니다. 해당 분포의 모수 (위의 예에서 정규 분포의 평균과 같은)는 공변량 (위의 예에서 패밀리와 같은 )에 따라 달라질 수 있습니다 . 그러나 물론 끝없는 변형이 가능합니다. 분포가 정상적이지 않을 수도 있고, 공변량에 의존하는 모수가 평균이 아닐 수도 있고, 의존성의 형태가 선형이 아닐 수도 있습니다. 이러한 모든 모델은 자연의 주사위에 대해 합리적으로 좋은 근사치를 제공한다는 가정에 의존합니다. 행동하십시오 (다시 말하면, 모델에서 시뮬레이션 된 데이터는 자연적으로 얻은 실제 데이터와 통계적으로 유사합니다).

모형에서 데이터를 시뮬레이션 할 때 마지막 단계는 모델링 된 확률 분포에 따라 항상 난수를 그리는 것입니다. 이것들은 우리가 서로 독립적이라고 가정하는 추첨입니다. 공변량 또는 모형의 다른 특징으로 인해 다른 드로우 (또는 드로우 세트)에 대해 다른 확률 분포를 사용하도록 지시 할 수 있기 때문에 실제 데이터는 독립적으로 보이지 않을 수 있습니다. 그러나이 모든 정보는 모델 자체에 내장되어야합니다. 우리는 임의의 최종 숫자 추첨이 다른 데이터 포인트에 대해 어떤 값을 그렸는지에 따라 달라지게 할 수 없습니다. 따라서 독립적이어야 할 사건은 우리 모델의 맥락에서 "자연의 주사위"의 롤입니다.

이 상황을 조건부 독립 이라고하는 것이 유용합니다. 즉, 데이터 점이 공변량에 대해 주어진 (즉, 조건에 따라) 서로 독립적임을 의미합니다 . 우리의 키 예에서, 우리는 나의 키와 나의 가족에게 조절 된 나의 키 가 서로 독립적이고 또한 당신의 키와 당신의 자매의 키 가 당신의 가족에 의존하지 않는다고 가정합니다. 우리가 누군가의 가족을 알게되면, 우리는 키를 시뮬레이트하기 위해 어떤 정규 분포를 그릴 것인지 알고 있으며, 다른 개인에 대한 추첨은 가족에 관계없이 독립적입니다 (심지어 일반적인 분포를 선택하는 것이 가족에 달려 있음에도 불구하고). 데이터의 가족 구조를 처리 한 후에도 여전히 조건부 독립성이 양호하지 않을 수 있습니다 (예 : 성별을 모델링하는 것이 중요 할 수도 있음).

궁극적 으로 관측의 조건부 독립성 을 가정 하는 것이 적절한 지 여부 는 특정 모델의 맥락에서 수행되어야하는 결정입니다. 예를 들어 선형 회귀 분석에서 데이터가 정규 분포에서 나온 것인지 확인하지 않지만 RESIDUALS가 정규 분포에서 나온 것 (및 전체 범위의 SAME 정규 분포에서 오는 것)을 확인하는 이유 데이터). 선형 회귀 분석에서는 공변량 (회귀선)의 영향을 고려한 후 원래 게시물의 독립성에 대한 엄격한 정의에 따라 정규 분포에서 데이터를 독립적으로 샘플링한다고 가정합니다.

당신의 모범의 맥락에서

데이터의 "교사"는 높이 예제의 "가족"과 비슷할 수 있습니다.

그것에 마지막 회전

많은 친숙한 모형은 잔차가 정규 분포에서 발생한다고 가정합니다. 매우 명확하지 않은 데이터를 제공했다고 상상해보십시오. 어쩌면 그것들이 강하게 비뚤어 졌거나 어쩌면 그들은 양봉입니다. "이 데이터는 정규 분포에서 나온 것입니다."

"말도 안돼요."

"데이터가 정상이라고 누가 말했습니까?" 내가 말하다. "나는 단지 정규 분포에서 온 것이라고 말했다."

"동일하게!" 당신은 말합니다. "정규 분포에서 합리적으로 큰 표본의 히스토그램이 거의 정상으로 보이는 경향이 있다는 것을 알고 있습니다!"

"하지만 데이터가 정규 분포에서 독립적으로 샘플링 되었다고 말한 적이 없습니다 . DO는 정규 분포에서 나왔지만 독립적 인 것은 아닙니다."

통계 모델링에서 (조건부) 독립성을 가정하면 나 같은 현명한 대변인이 잔차 분포를 무시하고 모델을 잘못 적용하는 것을 막을 수 있습니다.

두 가지 마지막 노트

1) "자연의 주사위"라는 용어는 원래 내 것이 아니지만 몇 가지 참고 문헌을 참조했지만이 맥락에서 어디에서 그것을 얻었는지 알 수 없습니다.

2) 일부 통계 모델 (예 : 자기 회귀 모델)은 이러한 방식으로 관측의 독립성을 요구하지 않습니다. 특히, 그들은 주어진 관측치에 대한 샘플링 분포가 고정 공변량뿐만 아니라 그 이전의 데이터에 의존하도록 허용합니다.


고마워 나는 그것이 접근하기 쉬운 방식으로 놓인 것을 좋아합니다. 당신은 이것이 교사에게 어떻게 작용하는지에 대한 문제를 다루고, 공변량으로서의 섹스에 대한 생각을 다루기 위해 토론을 확장 할 수 있습니까?
gung-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.