«resampling» 태그된 질문

리샘플링이 샘플에서 샘플을 가져옵니다. 일반적인 용도는 잭 나이 핑 (하위 샘플을 가져가는 것, 예를 들어 모든 값은 1이지만) 부트 스트랩 (샘플링 및 교체 포함)입니다. 이러한 기법은 분석적으로 도출하기 어렵거나 불가능할 때 샘플링 분포의 강력한 추정치를 제공 할 수 있습니다.

2
리샘플링 / 시뮬레이션 방법 : 몬테 카를로, 부트 스트랩, 잭 나이 핑, 교차 검증, 무작위 화 테스트 및 순열 테스트
R을 사용하여 내 컨텍스트에서 다른 리샘플링 방법 (Monte Carlo 시뮬레이션, 파라 메트릭 부트 스트랩, 비 파라 메트릭 부트 스트랩, 잭 나이 핑, 교차 유효성 검사, 무작위 테스트 및 순열 테스트)과 그 구현의 차이점을 이해하려고합니다 . 다음과 같은 상황이 있다고 가정합니다. Y 변수 ( Yvar) 및 X 변수 ( Xvar) 를 …

5
CV / Bootstrap을 사용하여 기계 학습 알고리즘을 훈련하여 과적 합할 수 있습니까?
이 질문은 결정적인 대답을 얻기에는 너무 개방적 일 수 있지만, 그렇지 않을 수 있습니다. SVM, GBM, 랜덤 포레스트 등과 같은 머신 러닝 알고리즘은 일반적으로 일부 경험 법칙을 넘어서 각 데이터 세트에 맞게 조정해야하는 자유 매개 변수를 갖습니다. 이것은 일반적으로 최상의 일반화 오류를 제공하는 매개 변수 세트에 맞추기 위해 일종의 리샘플링 …

2
부트 스트랩은 추정기의 샘플링 분포에 얼마나 근접합니까?
최근에 부트 스트랩을 연구 한 결과, 여전히 퍼즐 문제가 있습니다. 모집단이 있고 모집단 속성 (예 : 을 알고 싶습니다 . 여기서 를 사용 하여 모집단을 나타냅니다. 이 는 예를 들어 인구 평균 일 수 있습니다. 일반적으로 모집단에서 모든 데이터를 얻을 수는 없습니다. 따라서 크기가 표본 를 그립니다.P θ Xθ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNN모집단에서 N …

2
계층화 된 교차 검증을 사용하는 이유는 무엇입니까? 이것이 왜 분산 관련 혜택을 손상시키지 않습니까?
응답 클래스의 균형이 맞지 않을 때 특히 계층화 된 교차 유효성 검사를 사용하는 것이 좋습니다. 교차 검증의 한 가지 목적이 원래의 훈련 데이터 샘플의 무작위성을 설명하는 데 도움이되는 경우, 원래 훈련 세트에 대표 클래스 분포가 있는지 확실하지 않은 한 각 배에 동일한 클래스 분포를 갖는 것은 이것에 대해 작동하는 것입니다. …

2
순열 테스트의 가정은 무엇입니까?
순열 테스트에는 가정이 없다고 종종 언급되지만 이는 사실이 아닙니다. 예를 들어 내 샘플이 어떻게 든 상관 관계가 있다면 레이블을 바꾸는 것이 올바른 방법이 아니라고 상상할 수 있습니다. 이 문제에 대해 내가 찾은 유일한 것은 위키피디아의이 문장입니다. "순열 테스트 뒤에 중요한 가정은 관측 값이 귀무 가설 하에서 교환 가능하다는 것입니다." 이해가 …

2
캐럿 리샘플링 방법
caret다양한 모델링 절차를 테스트하기 위해 R 의 라이브러리 를 사용하고 있습니다 . trainControl목적 하나는 리샘플링 방법을 지정할 수있다. 방법이 설명되어 문서의 섹션 2.3을 포함한다 : boot, boot632, cv, LOOCV, LGOCV, repeatedcv와 oob. 이들 중 일부는 추론하기 쉽지만 이러한 방법 중 일부가 명확하게 정의되어 있지는 않습니다. 이러한 리샘플링 방법에 해당하는 절차는 …
20 r  resampling  caret 

2
오버 샘플링 된 불균형 데이터에 대한 분류 테스트
심각하게 불균형 한 데이터를 작업 중입니다. 문헌에서, 리샘플링 (과다 또는 과소 샘플링)을 사용하여 데이터를 재조정하기 위해 여러 방법이 사용됩니다. 두 가지 좋은 접근 방식은 다음과 같습니다. SMOTE : 합성 소수 오버 샘플링 TEchnique ( SMOTE ) ADASYN : 불균형 학습을위한 적응 형 합성 샘플링 접근법 ( ADASYN ) ADASYN은 적응성이 …

2
IID 샘플링 테스트
샘플링이 IID (독립적이고 동일하게 분배 됨)인지 어떻게 테스트하거나 확인 하시겠습니까? 나는 가우시안과 동일하게 분산 된 것이 아니라 IID만을 의미합니다. 그리고 내 생각은 아이디어를 동일한 크기의 두 개의 하위 샘플로 반복해서 분할하고 Kolmogorov-Smirnov 테스트를 수행하고 p- 값의 분포가 균일한지 확인하는 것입니다. 이 접근법에 대한 의견과 제안은 환영합니다. 현상금 시작 후 설명 …

2
“부트 스트랩 유효성 검사”(일명“리샘플링 교차 유효성 검사”) 절차는 무엇입니까?
"부트 스트랩 유효성 검사"/ "리샘플링 교차 유효성 검사"는 처음이지만 이 질문 에 대한 답변으로 논의되었습니다 . 시뮬레이션 데이터의 크기가 실제 데이터와 동일한 크기가 될 때까지 대체로 리샘플링하여 주어진 시뮬레이션 데이터 세트가 실제 데이터에서 생성되는 실제 데이터와 시뮬레이션 데이터의 두 가지 유형의 데이터를 수집합니다. 이러한 데이터 유형을 사용하는 두 가지 접근법을 …

2
부트 스트랩 리샘플링에 가장 권장되는 교과서?
나는 단지 당신의 견해로는 부트 스트랩에 대한 최고의 책을 묻고 싶었습니다. 이것으로 반드시 개발자가 작성한 것을 의미하지는 않습니다. 다음 기준을 충족하는 부트 스트랩에 가장 적합한 교과서를 표시 할 수 있습니까? 적용 가능성, 강점 및 약점, 모델 선택의 중요성을 기술하는 기술에 대한 철학적 / 인식 론적 근거? 구현, 철학적 토대, 바람직하게는 …

1
이 시계열 리샘플링 방법이 문헌에 알려져 있습니까? 이름이 있습니까?
최근에 시계열을 다시 샘플링하는 방법을 찾고있었습니다. 긴 메모리 프로세스의 자동 상관을 거의 유지합니다. 관측 영역을 유지합니다 (예 : 다시 샘플링 된 일련의 정수는 여전히 일련의 정수입니다). 필요한 경우 일부 스케일에만 영향을 줄 수 있습니다. 길이 시계열에 대해 다음 순열 체계를 생각해 냈습니다 .2N2N2^N 빈 연속 관측의 쌍에 의해 시계열 (가 …


1
샘플을 부트 스트랩 할 때 센터링이 필요합니까?
표본 평균의 분포를 근사하는 방법에 대해 읽을 때 비모수 적 부트 스트랩 방법을 사용했습니다. 분명히 의 분포에 의해 의 분포를 근사 할 수 있습니다 . 여기서 는 표본 평균을 나타냅니다. 부트 스트랩 샘플. ˉ X ∗ n − ˉ X n ˉ X ∗ n엑스¯엔− μX¯n−μ\bar{X}_n-\mu엑스¯※엔− X¯엔X¯n∗−X¯n\bar{X}_n^*-\bar{X}_n엑스¯※엔X¯n∗\bar{X}_n^* 내 질문은 : …

1
항상 부트 스트랩 CI를 사용하지 않는 이유는 무엇입니까?
부트 스트랩 CI (및 Barticular의 BCa)가 정규 분포 데이터에서 어떻게 수행되는지 궁금합니다. 다양한 유형의 분포에서 성능을 검사하는 작업이 많지만 정규 분포 데이터에서 아무것도 찾을 수 없습니다. 먼저 공부해야 할 것이 분명해 보이므로 논문이 너무 오래되었다고 생각합니다. R 부트 패키지를 사용하여 Monte Carlo 시뮬레이션을 수행하고 부트 스트랩 CI가 정확한 CI와 일치하는 …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.