«sampling» 태그된 질문

확률 적 방법을 사용하여 잘 지정된 모집단에서 표본을 생성하거나 지정된 분포에서 난수를 생성합니다. 이 태그가 모호하므로 전자의 경우 [측량 샘플링]과 후자의 경우 [몬테카를로] 또는 [시뮬레이션]을 고려하십시오. 알려진 분포에서 무작위 표본을 생성하는 것에 대한 질문은 [random-generation] 태그 사용을 고려하십시오.


8
얼마나 많은 사람들이 행사에 참석했는지 추정하는 방법 (예 : 정치 집회)?
한 학생이 오늘 나에게 물었다. "워싱턴 DC의 스튜어트 / 콜버트 '정신 회복을위한 집회'와 같은 대규모 그룹 행사에 얼마나 많은 사람들이 참석했는지 어떻게 알 수 있습니까?" 뉴스 매체는 수만 건의 추정치를보고하지만 이러한 추정치를 얻는 데 어떤 방법이 사용되며 얼마나 신뢰할 수 있습니까? 한 기사는 주차 허가에 대한 추정치에 근거한 것이지만 다른 …

2
Dirichlet 배포판에서 그리기
차원 벡터 모수 갖는 Dirichlet 분포가 있다고 가정 해 봅시다 . 이 분포에서 표본 ( K- 차원 벡터)을 어떻게 그릴 수 있습니까? (아마도) 간단한 설명이 필요합니다.→ α = [ α 1 , α 2 , … . . , α K ] KKKKα⃗ =[α1,α2,...,αK]α→=[α1,α2,...,αK]\vec\alpha = [\alpha_1, \alpha_2,...,\alpha_K]KKK

1
유한 보정 계수의 설명
유한 모집단에서 표본을 추출 할 때 표본 크기가 모집단의 5 % 이상인 경우 다음 공식을 사용하여 표본의 평균 및 표준 오류를 수정해야합니다. 에프피기음= N− n엔− 1−−−−√에프피기음=엔−엔엔−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} 여기서 은 모집단 크기이고 은 표본 크기입니다.엔엔N엔엔n 이 공식에 대해 3 가지 질문이 있습니다. 임계 값이 5 %로 설정된 이유는 무엇입니까? 공식은 어떻게 …

2
iid 데이터의 역설 (적어도 나를 위해)
통계에 대한 나의 총체적인 (그리고 부족한) 지식이 허용되는 한, 이 iid 랜덤 변수 , 용어가 암시하는 것처럼 그것들은 독립적이고 동일하게 분포된다는 것을 이해했습니다.X1,X2,...,XnX1,X2,...,XnX_1, X_2,..., X_n 내 관심사는 iid 샘플의 이전 속성입니다. p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), 별개의 's st .ijiji_j1≤ij&lt;n1≤ij&lt;n1 \leq i_j < n 그러나 동일한 분포의 독립적 인 표본의 집합이 분포 …

1
MCMC 표본의 한계 우도 계산
이것은 되풀이되는 질문이지만 ( 이 게시물 , 이 게시물 및 이 게시물 참조 ) 다른 스핀이 있습니다. 일반 MCMC 샘플러의 많은 샘플이 있다고 가정합니다. 각 표본 대해 θθ\theta, 로그 우도 logf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta) 와 로그 우선 의 값을 알고 logf(θ)log⁡f(θ)\log f(\theta)있습니다. 도움이된다면 데이터 포인트 당 로그 우도 값 도 …


1
로지스틱 회귀에 대한 샘플링에 1과 0의 실제 비율이 반영되어야합니까?
나무의 특성 (fe 높이)을 기반으로 나무에 사는 일부 동물 종의 발생 확률을 추정 할 수있는 로지스틱 회귀 모형을 작성하려고한다고 가정합니다. 항상 그렇듯이 시간과 비용이 제한되어 있으므로 제한된 샘플 크기 만 수집 할 수 있습니다. 다음 질문이 있습니다. 샘플의 1과 0의 비율이 1과 0의 실제 비율을 반영해야합니까? (적어도 대략) 균형 잡힌 …

2
주어진 표본 공분산 행렬로 데이터 생성
공분산 행렬 주어지면 샘플 공분산 행렬 가되도록 데이터를 생성하는 방법은 무엇입니까?Σ = Σ (S)ΣsΣs\boldsymbol \Sigma_sΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s 더 일반적으로 : 우리는 종종 밀도 에서 데이터를 생성하는 데 관심이 있으며 , 데이터 x 에 일부 매개 변수 벡터 \ boldsymbol \ theta가 있습니다. 그 결과 샘플이되며, 여기서 \ boldsymbol …

1
분산의 샘플링 분포가 카이 제곱 분포 인 이유는 무엇입니까?
진술 표본 분산의 표본 분포는 자유도가 n−1n−1n-1 인 카이 제곱 분포입니다 . 여기서nnn 은 표본 크기입니다 (관심있는 임의의 변수가 정규 분포를 따르는 경우). 출처 내 직감 1) 카이 제곱 테스트는 제곱합처럼 보이기 때문에 2) 카이 제곱 분포는 제곱 정규 분포의 합이기 때문에 다소 직관적입니다. 그러나 여전히, 나는 그것을 잘 이해하지 …

5
회귀 분석에서 불균형 데이터 샘플링
분류 컨텍스트 에서 불균형 데이터 처리에 대한 좋은 질문이 있었지만 회귀 분석을 위해 사람들이 무엇을하는지 궁금합니다. 문제 영역이 부호에 매우 민감하지만 목표의 크기에만 다소 민감하다고 가정하십시오. 그러나 크기는 분류가 아닌 회귀 (연속 목표) 여야합니다 (양성 클래스와 음수 클래스). 그리고이 문제 영역에서 모든 훈련 데이터는 긍정적 인 목표보다 10 배 더 …

7
누군가 독립과 무작위의 차이점을 설명하는 데 도움이 될 수 있습니까?
통계에서 독립 및 무작위는 동일한 특성을 설명합니까? 그들 사이의 차이점은 무엇입니까? 우리는 종종 "두 개의 독립적 인 랜덤 변수"또는 "무작위 샘플링"과 같은 설명을 접하게됩니다. 나는 그들 사이의 정확한 차이점이 무엇인지 궁금합니다. 누군가 이것을 설명하고 몇 가지 예를 들어 줄 수 있습니까? 예를 들어 비 독립적이지만 무작위적인 프로세스?

1
부트 스트랩 핑 vs 베이지안 부트 스트랩 핑 개념적으로?
베이지안 부트 스트랩 프로세스가 무엇인지, 그리고 일반 부트 스트랩과 어떻게 다른지 이해하는 데 어려움을 겪고 있습니다. 그리고 누군가가 직관적이고 개념적인 검토와 두 가지를 비교할 수 있다면 좋을 것입니다. 예를 들어 봅시다. 데이터 세트 X가 [1,2,5,7,3]이라고 가정 해 봅시다. X 크기 ([7,7,2,5,7], [3,5,2,2,7] 등)와 동일한 샘플 크기를 생성하기 위해 여러 번 …

1
ROC 곡선 분석을위한 베이지안 방법을 발명 한 적이 있습니까?
전문 이것은 긴 글입니다. 이 내용을 다시 읽는다면 배경 자료는 동일하게 유지되지만 질문 부분을 수정했습니다. 또한 문제에 대한 해결책을 고안했다고 생각합니다. 해당 솔루션은 게시물 하단에 나타납니다. 내 원래 솔루션 (이 게시물에서 편집; 해당 솔루션의 편집 기록 참조)이 반드시 바이어스 된 추정치를 생성했음을 지적한 CliffAB에게 감사합니다. 문제 기계 학습 분류 문제에서 …

4
PCA 공간에 새로운 벡터를 투영하는 방법?
주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.