통계 및 빅 데이터 bootstrap

3

부트 스트래핑, 순열 테스트, 잭나이프 등과 같이 실제로 자주 사용되는 몇 가지 널리 사용되는 리샘플링 기술이 있습니다. 필립 I 굿 (2010) 순열, 매개 변수 및 부트 스트랩 테스트와 같은 많은 기사와 서적에서 이러한 기술에 대해 설명합니다. 가설 내 질문은 어떤 리샘플링 기술이 더 인기를 얻고 구현하기가 더 쉽습니까? 부트 스트랩 …

37 hypothesis-testing nonparametric bootstrap permutation-test

5

CV / Bootstrap을 사용하여 기계 학습 알고리즘을 훈련하여 과적 합할 수 있습니까?

이 질문은 결정적인 대답을 얻기에는 너무 개방적 일 수 있지만, 그렇지 않을 수 있습니다. SVM, GBM, 랜덤 포레스트 등과 같은 머신 러닝 알고리즘은 일반적으로 일부 경험 법칙을 넘어서 각 데이터 세트에 맞게 조정해야하는 자유 매개 변수를 갖습니다. 이것은 일반적으로 최상의 일반화 오류를 제공하는 매개 변수 세트에 맞추기 위해 일종의 리샘플링 …

34 machine-learning cross-validation bootstrap optimization resampling

3

랜덤 포레스트는 특이 치에 어떻게 민감하지 않습니까?

I는 다음과 같은 몇 가지 소스에서 읽은 이 한 임의의 숲 (예를 들어, 로지스틱 회귀 및 기타 ML 방법이하는 방식) 이상치에 민감하지 않은 것을. 그러나 두 가지 직관은 그렇지 않다고 말합니다. 의사 결정 트리가 구성 될 때마다 모든 포인트가 분류되어야합니다. 즉, 특이 치조차도 분류되므로 부스팅 중에 선택한 의사 결정 트리에 …

33 random-forest bootstrap outliers cart

2

부트 스트랩 방법 / 제안 방법에 필요한 샘플 크기 결정

나는 이것이 실제로 간단한 대답을 할 수없는 다소 화제가되는 주제라는 것을 알고 있습니다. 그럼에도 불구하고 다음과 같은 접근 방식이 유용하지 않은지 궁금합니다. 부트 스트랩 방법은 표본이 원래 모집단과 동일한 분포를 어느 정도 따르거나 정확하게 읽는 경우에만 유용합니다. 확실하게하기 위해 샘플 크기를 충분히 크게 만들어야합니다. 그러나 충분히 큰 것은 무엇입니까? 내 …

33 bootstrap sample-size methodology

2

시계열 데이터로 부트 스트랩을 어떻게 수행합니까?

최근에 부트 스트래핑 기술을 사용하여 추정기의 표준 오류 및 신뢰 구간을 계산하는 방법에 대해 배웠습니다. 내가 배운 것은 데이터가 IID 인 경우 샘플 데이터를 모집단으로 취급하고 대체 샘플링을 수행 할 수 있으므로 테스트 통계에 대한 여러 시뮬레이션을 얻을 수 있습니다. 시계열의 경우 자기 상관이 존재할 가능성이 있기 때문에이를 수행 할 …

33 time-series bootstrap

4

백분위 수 부트 스트랩을 사용해서는 안된다는 것이 사실입니까?

2014 년 봄 (현재 여기 에서 사용 가능 ) 18.05 확률 및 통계 소개에 대한 MIT OpenCourseWare 노트에 다음과 같이 표시되어 있습니다. 부트 스트랩 백분위 수 방법은 단순성으로 인해 매력적입니다. 그러나이 부트 스트랩의 분포에 따라 x¯∗x¯∗\bar{x}^{*} (A)에 기초하여 특정 의 실제 분포에 좋은 근사치 인 샘플 x¯x¯\bar{x} . 라이스 장관은 …

31 confidence-interval bootstrap

4

바이어스의 부트 스트랩 추정치는 언제 유효합니까?

부트 스트래핑이 추정기의 편향 추정치를 제공 할 수 있다고 종종 주장된다. 경우 t는 어떤 통계에 대한 추정이며, ~ 을 t 나 (와 부트 스트랩 복제본 I ∈ { 1 , ⋯ , N은 } 다음 바이어스 부트 스트랩 추정치 임) B I S t ≈ 1t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} \mathrm{bias}_t \approx …

31 bootstrap bias

2

비대칭 분포의 평균에 대해 신뢰할 수있는 비모수 적 신뢰 구간이 있습니까?

로그 정규 분포와 같이 매우 치우친 분포는 정확한 부트 스트랩 신뢰 구간을 생성하지 않습니다. 다음은 R에서 어떤 부트 스트랩 방법을 사용하든 왼쪽 및 오른쪽 꼬리 영역이 이상적인 0.025와 거리가 멀다는 것을 보여주는 예입니다. require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', …

30 confidence-interval nonparametric mean bootstrap median

3

동료 검토 오픈 소스 저널에 대한 추천?

한 가지 의미의 가설을 테스트하기 위해 부트 스트랩 방법에 대한 원고가 있으며 출판을 위해 보내려고하지만 도덕적 딜레마가 있습니다. 나는 Elsevier에 대한 비 윤리적 사업 관행에 대한 항의에 서명했으며, 전체 문제를 읽으면서 다른 영리 학술 저널의 윤리에 의문을 갖게되었습니다. 따라서 나는 명성이 관련된 한, 더 널리 알려진 저널과 동등한 저널이 아직 …

30 hypothesis-testing bootstrap journals

5

부트 스트랩 간격에 끔찍한 적용 범위가있는 이유는 무엇입니까?

나는 t-interval을 부트 스트랩 간격과 비교하고 두 범위의 적용 확률을 계산하는 클래스 데모를 원했습니다. 데이터가 기울어 진 분포에서 나오기를 원했기 때문에 exp(rnorm(10, 0, 2)) + 1시프트 된 로그 노멀에서 크기가 10 인 표본으로 데이터를 생성하기로 결정했습니다 . 나는 1000 개의 표본을 추출하는 스크립트를 작성했으며, 각 표본에 대해 1000 개의 반복 …

29 bootstrap diagnostic

3

부트 스트랩 배포의 평균을보고하지 않는 이유는 무엇입니까?

표준 오류를 얻기 위해 매개 변수를 부트 스트랩하면 매개 변수의 분포를 얻습니다. 왜 우리는 그 분포의 평균을 우리가 얻으려는 모수에 대한 결과 또는 추정치로 사용하지 않습니까? 분포가 실제 분포와 비슷하지 않아야합니까? 그러므로 우리는 "실제"가치의 좋은 추정치를 얻을 수 있을까요? 그러나 샘플에서 얻은 원래 매개 변수를보고합니다. 왜 그런가요? 감사

29 distributions bootstrap standard-error expected-value

2

부트 스트랩은 추정기의 샘플링 분포에 얼마나 근접합니까?

최근에 부트 스트랩을 연구 한 결과, 여전히 퍼즐 문제가 있습니다. 모집단이 있고 모집단 속성 (예 : 을 알고 싶습니다 . 여기서 를 사용 하여 모집단을 나타냅니다. 이 는 예를 들어 인구 평균 일 수 있습니다. 일반적으로 모집단에서 모든 데이터를 얻을 수는 없습니다. 따라서 크기가 표본 를 그립니다.P θ Xθ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNN모집단에서 N …

29 bootstrap simulation resampling

1

부트 스트랩 예측 간격

선형 회귀 또는 다른 회귀 방법 (k- 최근 접 이웃, 회귀 트리 등)에서 얻은 점 예측에 대한 예측 간격을 계산하는 데 사용할 수있는 부트 스트랩 기술이 있습니까? 어떻게 든 포인트 예측을 부트 스트랩하는 제안 된 방법 (예 : kNN 회귀에 대한 예측 구간 참조 )이 예측 구간이 아니라 신뢰 구간을 …

29 bootstrap prediction-interval

3

R과 함께 부트 스트랩을 사용하여 p- 값 계산

"boot"패키지를 사용하여 대략적인 양면 부트 스트랩 p- 값 을 계산 하지만 결과는 t.test를 사용하는 p- 값과 너무 멀리 떨어져 있습니다. R 코드에서 내가 뭘 잘못했는지 알 수 없습니다. 누군가 나에게 이것에 대한 힌트를 줄 수 있습니까? time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ …

28 r hypothesis-testing p-value bootstrap permutation-test

1

자유도는 정수가 아닌 숫자 일 수 있습니까?

GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

«bootstrap» 태그된 질문