“무작위 표본”및“iid 임의 변수”동의어입니까?


18

나는 "임의의 샘플"과 "iid random variable"의 의미를 이해하기가 힘들었습니다. 여러 출처에서 의미를 찾으려고 노력했지만 점점 더 혼란스러워졌습니다. 내가 시도한 것을 여기에 게시하고 있습니다.

Degroot의 확률 및 통계는 다음과 같이 말합니다.

랜덤 샘플 / iid / 샘플 크기 : 실수 라인에서 pf 또는 pdf 로 표시 될 수있는 주어진 확률 분포를 고려하십시오 f. 이는 상기되는 n 확률 변수 X1,...,Xn 은이 랜덤 변수가 독립적이고 각 변수의 한계 pf 또는 pdf가 인 경우이 분포에서 랜덤 샘플을 형성합니다 f. 이러한 임의의 변수는 또한 독립적이고 동일하게 분포되고 약식 화 된 iid라고합니다. 우리는 임의의 변수의 수 n을 샘플 크기라고합니다.

그러나 내가 가지고있는 다른 통계 책 중 하나는 다음과 같습니다.

랜덤 샘플링에서는 모집단의 모든 개별 단위가 선택 될 확률이 같습니다 (확률).

따라서 iids가 임의의 샘플을 구성하는 요소이며 임의의 샘플을 얻는 절차는 임의 샘플링입니다. 내가 맞아?

추신 : 나는이 주제에 대해 매우 혼란 스럽습니다. 정교한 답변에 감사드립니다. 감사.


6
독립 우리는 모든 변수가 동일하게 분산 (같은 한계 분포를 가지고)하지만 있습니다되는 샘플 가질 수 있기 때문에 부분은 매우 중요 하지 독립적으로. 이러한 샘플은 여전히 임의의 샘플 로 간주 될 수 있지만 무작위 샘플 이라고 생각하는 실험에서는 아닙니다. 이 질문을 참조하십시오 .
Dilip Sarwate

이 질문은 통계적으로 이해되지 않는 것 같습니다. iid와 random sample은 글을 읽고 명확하게 구분 된 개념입니다.
Subhash C. Davar

2
@ subhashc.davar입니까? 한 가지 정의에 따르면 : "임의의 샘플은 독립적이고 동일하게 분포 된 (IID) 랜덤 변수의 시퀀스입니다". 그래서 iid와 무작위 샘플이 같은 것 같습니다. Degroot의 Probability & Statistics에서 인용 된 단락은 기본적으로 동일합니다. "샘플"이 때때로 개인 또는 일련의 개인, 때로는 임의의 변수 시퀀스이기 때문에 혼란 스럽습니다.
Gary Chang

@Gary Chang 인용 한 정의는 pdf와 관련이 있습니다. 무작위 변수 샘플은 심리학 분야에서 널리 사용되었습니다. 일반적으로 신뢰성 또는 유효성 추정 및 요인 분석과 관련하여 사용됩니다. 심리 측정법은 도메인에 대한 테스트의 동등성을 설정하는 데 관심이 있습니다. iid 개념은 선형 대수에서 비롯된 것 같습니다. 표본은 연구의 목적에 따라 주어진 개인 집단 및 / 또는 (임의의) 변수 집단에서 나올 수 있습니다. 현재 통계는 측정 이론에서 빌린 것으로 보입니다.
Subhash C. Davar

답변:


9

다른 통계 책이 무엇인지 말하지 않지만 유한 모집단 샘플링에 관한 책 (또는 섹션)이라고 생각합니다. .

당신 샘플 확률 변수, 당신은 일련의 생각 즉, 때되면 N 확률 변수를, 당신은 알고 그들이 독립적 인 경우 F를 ( X 1 , ...은 , X N ) = F ( X 1 ) F ( x n ) , 동일하게 분포 된 , 특히 E ( X i ) = μVar ( XX1,,Xnnf(x1,,xn)=f(x1)f(xn)E(Xi)=μ모든 i에 대해 = σ 2 이면 : ¯ X = i X iVar(Xi)=σ2i 여기서,σ2번째 중심 모멘트이다.

X¯=iXin,E(X¯)=μ,Var(X¯)=σ2n
σ2

유한 모집단 샘플링은 다소 다릅니다. 모집단의 크기가 인 경우 교체없이 샘플링 할 때 ( N 크기가n 인가능한 표본si는 다음과 같습니다. p(si)=1(Nn)sin 예를 들어N=5이고n=3인 경우 샘플 공간은{s1,,s10} 이고 가능한 샘플은 다음과 같습니다. s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4

p(si)=1(Nn)i=1,,(Nn)
N=5n=3{s1,,s10}(하자 반복합니다. 대충.) 각 개인의 발생 횟수를 세면 6 개임을 알 수 있습니다. 즉, 각 개인의 선택이 동일합니다 (6/10). 따라서 각si는 두 번째 정의에 따른 무작위 표본입니다. 대략 개인이 임의의 변수가 아니기 때문에 대략 임의의 표본이 아닙니다. 표본 평균으로E[X]를일관되게 추정 할 수는 있지만 정확한 값는없지만n=N 인경우 정확한 모집단 평균을 알수 있습니다
s1={1,2,3},s2={1,2,4},s3={1,2,5},s4={1,3,4},s5={1,3,5},s6={1,4,5},s7={2,3,4},s8={2,3,5},s9={2,4,5},s10={3,4,5}
siE[X]n=N1

μn<Nμ

y¯s=i=1nyi,E(y¯s)=μ
Var(y¯s)=σ~2n(1nN)
σ~2i=1N(yiy¯)2N1(1n/N) 을 보통 " 유한 모집단 보정 계수 "라고합니다.

이것은 (임의 변수) iid 랜덤 샘플과 (유한 모집단) 랜덤 샘플이 어떻게 다른지에 대한 간단한 예입니다. 통계적 추론 은 주로 랜덤 변수 샘플링에 관한 것이며 , 샘플링 이론 은 유한 모집단 샘플링에 관한 것입니다.


1 전구를 제조 중이고 평균 수명을 알고 싶다고 가정하십시오. 당신의 "인구"는 적어도 전구를 계속 생산한다면 이론적이거나 가상적인 것입니다. 따라서 데이터 생성 프로세스 를 모델링해야합니다전구 세트를 (무작위 변수) 샘플로 해석합니다. 1000 개의 전구 상자를 찾아 평균 수명을 알고 싶다고 가정 해보십시오. 작은 전구 세트 (유한 모집단 샘플)를 선택할 수 있지만 모든 전구를 선택할 수 있습니다. 작은 샘플을 선택하면 전구가 임의의 변수로 변환되지 않습니다. "all"과 "small set"사이의 선택에 따라 임의의 변수가 생성됩니다. 그러나 유한 인구가 매우 많은 경우 (예 : 국가 인구) "모두"를 선택할 수없는 경우 두 번째 상황이 첫 번째 상황으로 더 잘 처리됩니다.


1
"개체가 무작위 변수가 아니라"는 무슨 뜻입니까? Whuber는 정말 좋은 해답이 여기여기에 확률 변수의 개념을 설명하기 위해 유한 인구 샘플링을 사용합니다.
jsk

내가 말한 것을 의미합니다. = 불확실성이 없습니다.
Sergio

링크에서 작성된 내용과 직접 모순되는 진술을 명확하게 설명하는 데 도움이되지 않았습니다. 방어 할 필요는 없습니다. 에 대한 요점=내가 궁금한 진술과는 아무런 관련이 없습니다. 게다가, 변성 랜덤 변수는 랜덤 변수가 아닌가?
jsk

방어? 당신은 그 링크를 이해하지 못했습니다. whubner가 말했듯이, a) 박스형 티켓 모델은 "이것이 대학원 수준의 물건"이라는 불만을 피하기 위한 장난감의 예일 뿐입니다 . b)는 그가 피할 상자에 "인구"티켓을 호출하고 이유를 설명. 따라서 모순이 없습니다 . whubner가 말한 것을 이해할 수 있다면. BTW, 난 임의의 변수가 아니에요?
Sergio

물론 IMHO.
Sergio

2

난 당신이 쉽게 교과서에서 선택할 수 확률 정의 및 수식, 당신을 지루하게 (또는하지 않습니다 여기 에서 시작하기에 좋은 곳입니다)

이것을 직관적으로 생각하면 랜덤 샘플은 랜덤 값의 집합입니다. 일반적으로, 각각의 값은 동일하거나 상이하게 분포 될 수있다.나는.나는..표본은 임의 표본의 특별한 경우로, 모든 값은 다른 값과 동일한 분포에서 나오고 그 값은 다른 값에 영향을 미치지 않습니다. 독립은h영형 값이 생성되었습니다

나는.나는.예 : 데크에서 무작위 카드를 뽑아서 돌려받습니다 (5 번 반복). 당신은 5 실현 가치 를 얻을 것이다 (카드)를 . 이 값들 각각은 균일 한 분포에서 나옵니다 (각 결과를 얻을 확률은 동일합니다). 그리고 각각의 추첨은 다른 추첨과 무관합니다 (즉, 첫 번째 추첨에서 스페이드 에이스를 얻는다는 사실은 어떤 식 으로든 결과는 다른 추첨에서 얻을 수 있습니다).

나는.나는..예 : 이제 같은 작업을 수행하지만 카드를 덱으로 반환하지 않습니다 (지금까지 차이를 채우시기 바랍니다). 이 작업을 수행 한 후 다시 5 개의 실현 된 값 (카드)을 갖게됩니다. 그러나 분명히 그들은 의존적입니다 (첫 번째 추첨에 스페이드 에이스를 그렸다는 사실은 두 번째 추첨에 들어갈 기회가 없다는 것을 의미합니다).


1

일반적으로 X로 작성된 랜덤 변수는 가능한 값이 랜덤 현상의 수치 결과 인 변수입니다. 랜덤 현상은 랜덤 변수에 의해 포착 된 수치 값 (예 : 동전 10 토스의 헤드 수 또는 샘플의 수입 / 높이 등)을 갖는 결과를 생성 할 수 있지만 반드시 그럴 필요는 없습니다.
보다 일반적으로 랜덤 변수는 랜덤 결과를 숫자 값에 매핑하는 함수입니다. 예를 들어 매일 맑거나 맑거나 비가 올 수 있습니다. 비가 오는 경우 1, 비가 오는 경우 2, 맑으면 3 인 값을 취하는 랜덤 변수를 정의 할 수 있습니다. 랜덤 변수의 도메인은 가능한 결과 집합입니다.
랜덤 변수를 설정하려면 확실하게 예측할 수없는 가능한 결과와 관련된 프로세스 또는 실험이 있어야합니다.

이제 독립 문제에 왔습니다. 두 변수 중 하나의 값이 다른 변수의 PDF에 영향을 미치지 않으면 두 개의 임의 변수가 독립적입니다. 우리는 다른 변수에 대해 알고있을 때 한 변수의 다른 값에 대한 확률에 대한 예측을 수정하지 않습니다. 따라서 독립의 경우 사후 PDF는 이전 PDF와 동일합니다. 예를 들어, 편견없는 동전을 반복적으로 던질 때, 5 번의 토스 이전 결과에 대한 정보는 현재 토스에 대한 예측에 영향을 미치지 않으며 항상 0.5가됩니다. 그러나 코인의 바이어스가 알려지지 않고 랜덤 변수로 모델링 된 경우, 이전 5 개의 토스 결과는 현재의 토스에 대한 예측에 영향을 미치므로 코인의 알 수없는 바이어스에 대한 추론을 할 수 있습니다.

이제 샘플링 문제로 왔습니다. 샘플링의 목적은 알려지지 않았으며 추론해야하는 기본 분포의 특성을 알려주는 것입니다. 분포는 표본 공간 (조건부 우주 일 수도 있음)에서 가능한 결과의 상대적 가능성을 나타냅니다. 샘플을 사용할 때 샘플 공간에서 한정된 수의 결과를 선택하고 샘플 공간을보다 관리하기 쉬운 규모로 재현합니다. 그런 다음 등 확률은 표본의 결과 확률이 아닌 표본 추출 과정을 나타냅니다. 동일한 확률 샘플링은 샘플이 원래 샘플 공간의 결과 비율을 반영한다는 것을 의미합니다. 예를 들어 10을 물으면 체포 된 사람이 체포 된 경우 000 명 체포 된 사람이 답변을 거부 할 수 있으므로 가능한 결과의 비율로 인해 우리가 끝낸 샘플이 샘플 공간을 대표하지 않을 가능성이 높습니다. (체포-체포되지 않음)는 체계적인 이유로 샘플과 인구에 따라 다릅니다. 또는 설문 조사를 수행하기 위해 특정 지역을 선택한 경우 결과는 도시 전체를 대표하지 않습니다. 따라서 동일한 확률 표본 추출은 표본에서 가능한 결과의 비율이 모집단 / 샘플 공간의 결과 비율과 다르다고 믿게하는 순수한 임의성 이외의 체계적인 이유가 없음을 의미합니다. 따라서 가능한 결과의 비율 (체포-체포되지 않음)은 체계적인 이유로 샘플과 모집단간에 차이가 있습니다. 또는 설문 조사를 수행하기 위해 특정 지역을 선택한 경우 결과는 도시 전체를 대표하지 않습니다. 따라서 동일한 확률 표본 추출은 표본에서 가능한 결과의 비율이 모집단 / 샘플 공간의 결과 비율과 다르다고 믿게하는 순수한 임의성 이외의 체계적인 이유가 없음을 의미합니다. 따라서 가능한 결과의 비율 (체포-체포되지 않음)은 체계적인 이유로 샘플과 모집단간에 차이가 있습니다. 또는 설문 조사를 수행하기 위해 특정 지역을 선택한 경우 결과는 도시 전체를 대표하지 않습니다. 따라서 동일한 확률 표본 추출은 표본에서 가능한 결과의 비율이 모집단 / 샘플 공간의 결과 비율과 다르다고 믿게하는 순수한 임의성 이외의 체계적인 이유가 없음을 의미합니다.


-2

랜덤 샘플은 랜덤 변수 시퀀스의 실현입니다. 이러한 임의의 변수는 iid 일 수도 있고 아닐 수도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.