«sample» 태그된 질문

표본은 모집단의 부분 집합입니다. 일반적으로 통계는 표본을 사용하여 더 큰 (무한한) 모집단을 지배하는 모수에 대한 추론과 관련이 있습니다.

4
전체 목록을 대체하지 않고 큰 목록에서 10의 많은 샘플을 채취하는 방법
큰 데이터 세트 (20,000 개의 데이터 포인트)가 있는데 여기에서 10 개의 데이터 포인트를 반복적으로 샘플링하려고합니다. 그러나 일단 10 개의 데이터 포인트를 선택한 후에는 다시 선택하지 않기를 원합니다. sample함수를 사용해 보았지만 함수를 여러 번 호출하지 않고도 샘플링 할 수있는 옵션이없는 것 같습니다. 이를 수행하는 간단한 방법이 있습니까?
12 r  sample 

1
모집단 평균이 알려진 경우 모집단의 분산 추정
를 사용하여 모집단의 분산을 추정 한다는 것을 알고 있습니다 . 주어진 직관은 우리의 추정 평균이 실제 일회성 조금 아마이었다 어디 칸 아카데미에서 비디오를 기억 때문에 거리 우리가 나눌 수 있도록 실제로 더 큰 것 이하 ( 대신에 ) 더 큰 값을 얻으려면 더 나은 추정치를 얻습니다. 그리고 어딘가에서 읽은 것을 …
11 variance  sample 

5
포아송이 아니라면 이것은 어떤 분포입니까?
7 일 동안 개인이 수행 한 작업 수를 포함하는 데이터 세트가 있습니다. 구체적인 조치는이 질문과 관련이 없어야합니다. 다음은 데이터 세트에 대한 설명 통계입니다. 범위평균변화관측치 수0 - 77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of …

1
SurveyMonkey는 무작위가 아닌 샘플을 받는다는 사실을 무시합니까?
SurveyMonkey에는 모집단 규모에 따라 주어진 오차 한계 또는 신뢰 구간에 필요한 표본 크기를 파악하기위한 단계와 차트가 있습니다. SurveyMonkey 샘플 크기 이 차트는 단순히 무작위 표본을 얻지 못한다는 사실을 무시합니까? 설문 조사에 귀를 기울이는 사람들 만 얻을 수 있기 때문입니까? 이 질문을 입력하면 질문이 주관적인 것처럼 보이므로 제대로 묻지 않을 수 …

1
표본 비율에 이항 분포가없는 이유
이항 설정에서 성공 횟수를 제공하는 임의의 변수 X는 이항 적으로 분포됩니다. 그런 다음 샘플 비율을 X 로 계산할 수 있습니다 여기서n엑스엔Xn\frac{X}{n}엔nn 은 표본 크기입니다. 내 교과서는 이 비율은 수행 하지 이항 분포 그러나 X 이후 은 단순히 이항 분포 랜덤 변수X의 스케일 버전이며, 이항 분포도없어야합니까?엑스엔Xn\frac{X}{n}엑스XX

2
한 세트의 표본을 사용하여 여러 세트의 교집합의 크기 추정
적어도 2 세트의 교집합에 의해 생성 된 세트의 크기를 계산 해야하는 알고리즘을 연구 중입니다. 더 구체적으로: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | 교차 된 집합은 SQL 쿼리에 의해 생성되며, 빠른 속도를 유지하기 위해 각 쿼리 수를 미리 얻은 다음 가장 낮은 수 ( )로 집합을 …
10 error  sample 

1
R 선형 회귀 범주 형 변수 "숨김"값
이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
데이터에 대한 ROC 곡선 계산
그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
모델 피팅 / 트레이닝 및 검증에 사용되는 샘플 데이터의 계산 비율
데이터 예측에 사용할 샘플 크기 "N"을 제공했습니다. 데이터를 세분화하여 일부를 사용하여 모델을 설정하고 나머지 데이터를 사용하여 모델을 확인하는 방법에는 어떤 것이 있습니까? 나는 이것에 대한 흑인과 백인의 대답이 없다는 것을 알고 있지만, 어떤 "엄지 규칙"이나 일반적으로 사용되는 비율을 아는 것이 흥미로울 것입니다. 나는 교수 중 한 명이 대학에서 60 %에 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.