«sample» 태그된 질문

표본은 모집단의 부분 집합입니다. 일반적으로 통계는 표본을 사용하여 더 큰 (무한한) 모집단을 지배하는 모수에 대한 추론과 관련이 있습니다.

25
자유롭게 사용 가능한 데이터 샘플 찾기
나는 하위 집합의 특성을 알지 못한 채 집단의 하위 집단을 식별하고 분리하기 위해 데이터 세트를 분석하고 파싱하는 새로운 방법을 연구하고있다. 이 방법은 인공 데이터 샘플 (예 : 모집단의 하위 집합을 식별하고 분리하기 위해 특별히 작성된 데이터 세트)에서 충분히 잘 작동하지만 실제 데이터로 테스트하려고합니다. 내가 찾고있는 것은 무료로 사용할 수있는 (즉, …


3
R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]
캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

3
무작위 표본이 명확하지 않은 경우 어떻게해야합니까?
당신은 무작위로 샘플을 채취하고 그것이 같이 명확하게 반영하지 않고 볼 수있는 경우에는 어떻게 최근 질문 . 예를 들어 모집단 분포가 0을 기준으로 대칭 인 것으로 가정하고 무작위로 추출한 표본에 불균형 긍정적 및 부정적 관측치가 있고 불균형이 통계적으로 유의하면 어디에서 벗어날 수 있습니까? 치우친 표본을 기반으로 모집단에 대해 어떤 합리적인 진술을 …

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Ping 응답 시간에 대해이 데이터를 나타내는 분포 유형을 어떻게 알 수 있습니까?
네트워크 핑 시간과 같은 실제 프로세스를 샘플링했습니다. "왕복 시간"은 밀리 초 단위로 측정됩니다. 결과는 히스토그램으로 표시됩니다. 핑 시간은 최소값이지만 긴 꼬리는 길다. 통계 분포가 무엇인지, 매개 변수를 추정하는 방법을 알고 싶습니다. 분포가 정규 분포가 아니지만 달성하려는 것을 여전히 보여줄 수 있습니다. 정규 분포는 다음 기능을 사용합니다. 두 매개 변수로 μ …


3
부트 스트랩 : 과적 합 문제
대체로 원래 관측치 로부터 각각 크기 의 샘플을 추출 하여 소위 비모수 적 부트 스트랩을 수행한다고 가정합니다 . 이 절차는 경험적인 cdf에 의한 누적 분포 함수를 추정하는 것과 같습니다.BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function 그리고 추정 된 cdf 시간 으로부터 관측치를 연속 으로 시뮬레이션함으로써 부트 스트랩 샘플을 획득하는 단계 를 포함한다.nnnBBB 내가 이것에 옳다면 …


4
모집단의 정량적 속성이“매개 변수”입니까?
통계와 매개 변수라는 용어의 차이점에 대해 비교적 잘 알고 있습니다. 통계를 샘플 데이터에 함수를 적용하여 얻은 값으로 봅니다. 그러나 모수의 대부분의 예는 모수 분포 정의와 관련이 있습니다. 일반적인 예는 정규 분포를 매개 변수화하는 평균 및 표준 편차 또는 선형 회귀를 매개 변수화하기위한 계수 및 오류 분산입니다. 그러나 덜 분포적인 인구 …

1
큰 샘플 점근선 / 이론-신경 써야하는 이유?
이 질문이 "너무 일반적인 것"으로 표시되지 않기를 바라며, 모든 혜택을 얻는 토론이 시작되기를 바랍니다. 통계에서 우리는 큰 표본 이론을 배우는 데 많은 시간을 소비합니다. 우리는 무증상 편향, 무증상 효율성, 점근 분포 등을 포함한 평가자의 점근 적 특성 평가에 깊은 관심을 가지고 있습니다. 점근선이라는 단어는 라는 가정과 밀접한 관련이 있습니다.n→∞n→∞n \rightarrow …

1
올가미에 대한 LARS 대 좌표 하강
L1 정규 선형 회귀 피팅에 LARS [1] 사용과 좌표 하강 사용의 장단점은 무엇입니까? 나는 주로 퍼포먼스 측면에 관심이있다 (내 문제는 N수십만에서 p20 이하인 경향이있다 ). 그러나 다른 통찰력도 인정 될 것이다. 편집 : 내가 질문을 게시 한 후 chl은 Friedman 등의 논문 [2]에 좌표 하강이 다른 방법보다 상당히 빠른 것으로 …

2
랜덤 변수와 랜덤 샘플의 차이점은 무엇입니까?
이 두 표현은 통계를 배울 때 많이 혼란 스러웠습니다. 그것들은 완전히 다른 것 같습니다. 무작위 표본은 반면, 무작위 인구에서 샘플을 채취하는 확률 변수가 실수로 실험의 모든 가능한 결과 세트를 매핑하는 기능과 같다. 나는 몇 가지 샘플을 그릴 경우, 말 , X 2 , X 3 및 X I ~ N …

2
Kaggle 대회가 우연히 이겼습니까?
캐글 대회는 개최 테스트 세트를 기반으로 최종 순위를 결정합니다. 보류 된 테스트 세트는 샘플입니다. 모델링되는 모집단을 대표하지 않을 수도 있습니다. 각 제출은 가설과 같으므로 경쟁에서이긴 알고리즘은 우연히 테스트 세트를 다른 것보다 더 잘 일치시킬 수 있습니다. 다시 말해, 다른 테스트 세트가 선택되고 경쟁이 반복되는 경우 순위는 동일하게 유지됩니까? 후원 회사의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.