x=(X1,...,Xj,...,Xk)k−
ni=1,...,n
xi=(X1i,...,Xji,...,Xki)
S=(x1,...,xi,...,xn)k− 차원 벡터는 "관측"입니다 (임의의 임의 변수의 실현을 측정하고 기록하면 실제로는 하나가되지만).
fi(xi),i=1,...,nf(x1,...,xi,...,xn)
S
f(x1,...,xi,...,xn)=∏i=1nfi(xi),∀(x1,...,xi,...,xn)∈DS
DSn
이것은 "관측"이 "공동 적으로 독립적"(통계적 의미에서, 또는 오늘날에도 여전히 보이는 오래된 말처럼 "독립적으로 독립적")임을 의미합니다. 습관은 단순히 "독립적 관찰"이라고 부르는 것입니다.
i
밀도가없는 연속 랜덤 변수가있는 경우 위의 분포 함수로 표현할 수 있습니다.
이것이 "독립적 관찰"의 의미 입니다. 수학 용어로 표현되는 정확하게 정의 된 속성입니다. 그것의 의미를 보자 .
독립적 인 관찰을 갖는 몇 가지 결과
A. 두 개의 관측치가 공동으로 독립적 인 관측치 그룹의 일부인 경우 "통계적으로 독립적"입니다 (통계적으로).
f(xi,xm)=fi(xi)fm(xm)∀i≠m,i,m=1,...,n
이는 조건부 PMF / PDF가 "마지막"과 동일하다는 것을 의미합니다.
f(xi∣xm)=fi(xi)∀i≠m,i,m=1,...,n
이것은 조건부 또는 조건부와 같은 많은 논쟁을 일반화합니다.
f(xi,xℓ∣xm)=f(xi,xℓ),f(xi∣xm,xℓ)=fi(xi)
왼쪽의 색인이 세로선의 오른쪽에있는 색인과 다른 한 등입니다.
이것은 우리가 실제로 하나의 관측을 관찰한다면, 표본의 다른 관측을 특징 짓는 확률은 변하지 않음을 의미합니다. 따라서 예측 과 관련 하여 독립 샘플은 우리의 가장 친한 친구가 아닙니다. 우리는 각각의 관찰이 다른 관찰에 대해 더 많은 것을 말할 수 있도록 의존성을 선호합니다.
B. 반면, 독립 샘플은 최대 정보 내용을 가지고 있습니다. 독립적 인 모든 관찰은 표본의 다른 관찰에 의해 전체적으로 나 부분적으로 추론 할 수없는 정보를 전달합니다. 따라서 총 관측치는 일부 관측치간에 통계적 의존성이있는 비교 가능한 표본과 비교하여 최대입니다. 그러나이 정보가 예측 개선에 도움이되지 않는다면 어떤 정보를 사용합니까?
음, 이것은 샘플에서 랜덤 변수를 특성화하는 확률에 대한 간접 정보입니다. 이러한 관측치에 공통적 인 특성 (이 경우 공통 확률 분포)이 많을수록 표본이 독립적 인 경우 더 잘 파악할 수 있습니다.
즉, 표본이 독립 적이고 "동일하게 분포 된"경우
fi(xi)=fm(xm)=f(x),i≠m
f(x)fj(xji)
f(xi∣xm)=fi(xi)xi fi
따라서 추정 (때로는 포괄적 인 용어로 사용되지만 여기서는 예측 개념과 구별되어야 함 )과 관련하여 독립 표본 은 "동일 분포"와 결합 된 경우 "가장 친한 친구"입니다. "속성.
C. 또한 공통 특성이 전혀없는 완전히 다른 확률 분포를 특징으로하는 독립적 인 관측 표본은 다음과 같이 얻을 수있는 정보 의 수집 만큼 가치가 없다 (물론 자체적으로 모든 정보는 합당하게, 여기서 문제는 이것들을 결합하여 유용한 것을 제공 할 수 없다는 것입니다.) 하나는 남미의 과일 (양적 특성), 다른 하나는 유럽의 산, 다른 하나는 아시아의 옷을 포함하는 세 가지 관측치가 포함 된 표본을 상상해보십시오. 세 가지 모두 흥미로운 정보를 수집하지만 표본으로 함께 사용하면 통계적으로 유용한 정보를 얻을 수 없습니다.
다른 방법으로, 독립 표본이 유용하기 위해 필요하고 충분한 조건은 관측치에 공통적 인 통계 특성이 있다는 것입니다. 이것이 통계에서 "샘플"이라는 단어가 일반적으로 "정보 수집"과 동의어가 아니라 "일부 공통된 특징을 가진 엔티티에 대한 정보 수집"과 동의어입니다.
OP의 데이터 예에 적용
사용자 @gung의 요청에 응답하여 위의 관점에서 OP의 예를 살펴 보겠습니다. 우리는 2 명 이상의 교사와 6 명 이상의 학생이있는 학교에 있다고 가정합니다. 따라서 a) 학생과 교사를 모두 샘플링하고 있으며 b) 각 교사-학생 조합에 해당하는 성적을 데이터 세트에 포함시킵니다.
GPTS=(s1,...,s6)
s1=(T1,P1,G1)s2=(T1,P2,G2)s3=(T1,P3,G3)s3=(T2,P4,G4)s4=(T2,P5,G5)s5=(T2,P6,G6)
PiGi
T1,T2
s1,s2,s3T1s4,s5,s6T2
"동일한 랜덤 변수"와 "동일한 분포를 갖는 두 개의 서로 다른 랜덤 변수"의 구분에주의하십시오.
s1,s2,s3T1s4,s5,s6T2
이제 샘플에서 무작위 변수 "교사"를 제외 한다고 가정합니다 . 6 개의 관측치 중 (Pupil, Grade) 표본이 독립 표본입니까?
여기에서 교사, 학생 및 학년 간의 구조적 관계가 무엇인지에 대한 가정은 중요합니다.
T1T2G1,G2,G3T1
그러나 교사는 그 점에서 동일하다고 말하십시오. 그런 다음 "선생님이 학생에게 영향을 미칩니다"라는 가정하에 교사가 성적에 영향을 미치는 학생에게 영향을 미치기 때문에이 세 가지 관찰은 서로 의존적이라는 것을 다시 한 번 알 수 있습니다. 다른 세). 다시, 샘플은 독립적이지 않습니다.
성별 사례
GeM,F
s1=(Ge1,P1,G1)s2=(Ge2,P2,G2)s3=(Ge3,P3,G3)s3=(Ge4,P4,G4)s4=(Ge5,P5,G5)s5=(Ge6,P6,G6)
우리가 관련 성별로 샘플의 설명에 포함 된 것입니다 신중하게 참고 하지 가 각 학생 걸리는 실제 값, 하지만 확률 변수 "성별" . 이 매우 긴 대답의 시작 부분을 되돌아보십시오. 샘플은 숫자 모음 (또는 고정 숫자 또는 일반적으로 값 이 아닌)으로 정의 되지 않지만 임의의 변수 (예 : 함수)로 정의됩니다.
Gei1Ge1P2,P3,...그런 다음 관측간에 또 다른 가능한 의존성의 원천이됩니다. 마지막으로, 학생의 성별이 다른 학생의 성적에 직접 영향을 줍니까? 그렇지 않다고 주장 하면 독립적 인 표본을 얻습니다 (동일한 교사를 가진 모든 학생에게 조건부).