통계 및 빅 데이터 sampling

3

데이터 과학을 처음 사용하고 R에서 200,000 개의 행과 50 개의 열이있는 데이터 세트에서 클러스터를 찾는 데 문제가 있습니다. 데이터에는 숫자 변수와 명목 변수가 모두 있으므로 유클리드 거리 측정을 사용하는 K- 평균과 같은 방법은 적절한 선택처럼 보이지 않습니다. 따라서 거리 매트릭스를 입력으로 받아들이는 PAM, agnes 및 hclust로 전환합니다. 데이지 방법은 혼합 …

13 r clustering sampling large-data

3

반복 관찰 횟수로 샘플링되는 모집단의 크기 추정

5 천만 개의 고유 한 개체군이 있고 1,000 만 개의 샘플을 교체한다고 가정 해 보겠습니다. 첫 번째 그래프는 내가 첨부 한 동일한 "사물"을 몇 번이나 샘플링했는지 보여줍니다. 인구가 샘플보다 큽니다. 그러나 제 인구가 천만 개에 불과하고 천만 개 샘플을 채취하면 두 번째 그래프에서 볼 수 있듯이 동일한 횟수를 반복하여 샘플링하는 …

13 r sampling expectation-maximization

1

할턴 시퀀스 대 소볼 시퀀스?

이전 질문 의 답변에서 나는 균일 한 샘플 공간을 상당히 균일하게 덮는 일련의 벡터를 만들기 위해 Halton 시퀀스를 지향했습니다. 그러나 위키 백과 페이지 는 높은 소수가 특히 시리즈 초반에 높은 상관 관계가 있다고 언급합니다. 상대적으로 샘플 크기가 짧은 모든 소수 쌍의 경우에 해당합니다. 변수가 상관 관계가 없어도 샘플 공간이 균등하게 …

13 sampling small-sample quasi-monte-carlo

5

표본이 센서스보다 더 정확하다고 주장하는 이유는 무엇입니까?

샘플링 과정을 배울 때 다음 두 가지 진술을 충족시킵니다. 1) 샘플링 오류는 대부분 가변성, 비 샘플링 오류는 편차를 유발합니다. 2) 비 샘플링 오차로 인해 샘플이 종종 CENSUS보다 정확합니다. 나는이 두 진술을 이해하는 방법을 모른다. 이 두 문장을 얻는 기본 논리는 무엇입니까?

13 estimation sampling survey bias

4

실제 응용 분야에서 교체하지 않고 샘플링을 고려해야하는 이유는 무엇입니까?

교체를 통한 샘플링은 내가 볼 때 교체하지 않고 샘플링하는 것보다 두 가지 장점이 있습니다. 1) 유한 모집단 수정에 대해 걱정할 필요가 없습니다. 2) 모집단의 요소가 여러 번 그려 질 수 있으므로 측정 값을 재활용하고 시간을 절약 할 수 있습니다. 물론 학술 POV에서 두 가지 방법을 모두 조사해야합니다. 그러나 실용적인 POV에서 …

13 sampling finite-population

3

여러 가지 (모두는 아님) 모수 적 가설 검정에서 랜덤 샘플링을 가정하는 이유는 무엇입니까?

Z, t 및 기타 여러 테스트는 데이터가 랜덤 샘플링을 기반으로하는 것으로 가정합니다. 왜? 실험적 연구를하고 있는데, 외부 연구보다 내부 타당성을 훨씬 더 중요하게 생각합니다. 따라서 전체 모집단에 대한 가설을 추론하지 않기로 동의했기 때문에 샘플이 약간 편향되어있을 수 있습니다. 그룹화는 여전히 임의적입니다. 즉, 편의를 위해 샘플 참가자를 선택하지만 무작위로 다른 그룹에 …

12 hypothesis-testing sampling parametric randomness

2

랜덤 변수의 값 범위가 제한된 경우 어떻게 정규 분포를 로 얻을 수 있습니까?

와 묶인 값 범위를 갖는 임의의 변수가 있다고 가정 해 봅시다 . 여기서 는 최소값이고 는 최대 값입니다.b a baaabbbaaabbb I 같이 들었다 , 여기서 우리의 샘플 크기는, 우리의 샘플의 샘플링 수단 분포 인 정규 분포. 우리가 증가함에 따라 즉, 우리가 점점 더 가까이 정규 분포를 얻을 수 있지만, 같은 …

12 normal-distribution sampling random-variable central-limit-theorem

3

두꺼운 꼬리 분산 프로세스가 크게 개선되었는지 확인

프로세스가 변경에 의해 개선되었는지 확인하기 위해 변경 전후 프로세스의 처리 시간을 관찰합니다. 처리 시간이 단축되면 프로세스가 개선되었습니다. 처리 시간의 분포는 굵은 꼬리이므로 평균을 기준으로 비교하는 것은 합리적이지 않습니다. 대신 변경 후 더 낮은 처리 시간을 관찰 할 확률이 50 %를 크게 초과하는지 알고 싶습니다. 하자 변경 후의 처리 시간에 대한 …

12 sampling nonparametric

1

R-자유도에서 PROC Mixed과 lme / lmer의 차이점

참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

exp (X) ~ Gamma 인 경우 X를 빠르게 샘플링하는 방법?

내부 루프가 다음과 같은 간단한 샘플링 문제가 있습니다. v = sample_gamma(k, a) 여기서 sample_gamma감마 분포의 샘플은 Dirichlet 샘플을 형성합니다. 잘 작동하지만 일부 k / a 값의 경우 일부 다운 스트림 계산 언더 플로가 있습니다. 로그 공간 변수를 사용하도록 조정했습니다. v = log(sample_gamma(k, a)) 나머지 모든 프로그램을 조정 한 후에는 올바르게 …

12 sampling gamma-distribution

1

중앙 한계 정리가 단일 표본으로 작동하는 이유는 무엇입니까?

저는 샘플을 반복 할 때 CLT가 작동한다는 것을 항상 배웠습니다. 각 샘플은 충분히 큽니다. 예를 들어, 내가 1,000,000 시민의 나라를 가지고 있다고 상상해보십시오. CLT에 대한 나의 이해는 신장 분포가 정상이 아니더라도 50 명의 표본 1000 개를 채취 한 경우 (즉, 각각 50 명의 시민을 대상으로 한 1000 번의 조사를 실시한 …

12 sampling central-limit-theorem

2

MCMC 방법-샘플 굽기?

에서 MCMC의 방법, 나는에 대해 계속 읽기 burn-in시간이나, 샘플의 수 "burn". 이것이 정확히 무엇이며 왜 필요한가요? 최신 정보: MCMC가 안정화되면 안정적으로 유지됩니까? burn-in시간 의 개념 은 혼합 시간 의 개념과 어떤 관련이 있습니까?

12 sampling mcmc

1

중요도 샘플링의 직관적 인 예

저의 배경은 컴퓨터 과학입니다. 나는 몬테 카를로 샘플링 방법에 익숙하지 않으며 수학을 이해하지만 중요도 샘플링에 대한 직관적 인 예를 제시하기가 어렵습니다. 보다 정확하게는 누군가 다음과 같은 예를 제공 할 수 있습니다. 최초 분포는 표본 추출이 불가능하지만 추정 할 수는 있음 이 최초 배포본에서 추출하여 적절한 중요도 분포.

12 probability distributions sampling importance-sampling

3

순열을 반복하지 않고 R에서 다시 샘플링하는 방법은 무엇입니까?

R에서 set.seed ()를 사용한 다음 샘플 함수를 사용하여 목록을 무작위 화하면 동일한 순열을 생성하지 않을 수 있습니까? 즉 ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } 이것은 생산 [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 …

12 r sampling combinatorics resampling

1

조건부 분포를 사용하여 한계 분포에서 샘플링?

일 변량 밀도 에서 샘플링하고 싶지만 관계 만 알고 있습니다.에프엑스fXf_X 에프엑스( x ) = ∫에프엑스| 와이( x | y) f와이( y) d와이.fX(x)=∫fX|Y(x|y)fY(y)dy.f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. 나는 때문에, (직접 적분 표현에) MCMC의 사용을 피하고 싶은 및 f Y ( y ) 는 샘플링하기 쉽고 다음 샘플러를 사용하려고 생각했습니다.에프엑스| …

12 sampling conditional-probability monte-carlo marginal

«sampling» 태그된 질문