통계 및 빅 데이터

2

순열 테스트에는 가정이 없다고 종종 언급되지만 이는 사실이 아닙니다. 예를 들어 내 샘플이 어떻게 든 상관 관계가 있다면 레이블을 바꾸는 것이 올바른 방법이 아니라고 상상할 수 있습니다. 이 문제에 대해 내가 찾은 유일한 것은 위키피디아의이 문장입니다. "순열 테스트 뒤에 중요한 가정은 관측 값이 귀무 가설 하에서 교환 가능하다는 것입니다." 이해가 …

22 hypothesis-testing permutation-test resampling

2

평균 절대 스케일 오차 (MASE)의 해석

MASE (Mean Absolute Scaled Error)는 Koehler & Hyndman (2006)이 제안한 예측 정확도의 척도입니다 . MASE=MAEMAEin−sample,naiveMASE=MAEMAEin−sample,naiveMASE=\frac{MAE}{MAE_{in-sample, \, naive}} 여기서 는 실제 예측에 의해 생성 된 평균 절대 오차입니다. 반면 (AN 예 : 변화 없음 예보 집적 순 예측에 의해 생성 된 평균 절대 에러 인 의 시간 시리즈)에서의 샘플 데이터를 계산 …

22 time-series forecasting accuracy mase

3

부분 의존도의 y 축 해석

이 질문은 교차 검증에서 답변 될 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 5 년 전에 마이그레이션 되었습니다 . 부분 의존성 플롯에 대한 다른 주제를 읽었으며 대부분은 정확하게 해석 할 수있는 방법이 아니라 다른 패키지로 실제로 플롯하는 방법에 관한 것입니다. 나는 상당한 양의 부분 의존도를 읽고 작성해 왔습니다. …

22 r classification data-visualization random-forest interpretation

1

분산의 샘플링 분포가 카이 제곱 분포 인 이유는 무엇입니까?

진술 표본 분산의 표본 분포는 자유도가 n−1n−1n-1 인 카이 제곱 분포입니다 . 여기서nnn 은 표본 크기입니다 (관심있는 임의의 변수가 정규 분포를 따르는 경우). 출처 내 직감 1) 카이 제곱 테스트는 제곱합처럼 보이기 때문에 2) 카이 제곱 분포는 제곱 정규 분포의 합이기 때문에 다소 직관적입니다. 그러나 여전히, 나는 그것을 잘 이해하지 …

22 distributions normal-distribution sampling chi-squared sample-size

5

시계열 예측을 위해 데이터 세트를 분할하는 방법은 무엇입니까?

제과점의 과거 판매 데이터가 있습니다 (매일, 3 년 이상). 이제 주중, 날씨 변수 등과 같은 기능을 사용하여 향후 판매를 예측하는 모델을 만들고 싶습니다. 모델 피팅 및 평가를 위해 데이터 세트를 어떻게 분할해야합니까? 시간순으로 기차 / 검증 / 테스트 분할해야합니까? 그런 다음 열차 및 검증 세트로 하이퍼 파라미터 튜닝을 수행합니까? (중첩 …

22 cross-validation partitioning

2

데이터의 일부 변동에도 불구하고 혼합 모델에서 랜덤 효과의 분산이 0 인 이유는 무엇입니까?

다음 구문을 사용하여 혼합 효과 로지스틱 회귀 분석을 실행했습니다. # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 주제와 항목은 무작위 효과입니다. 주제 항에 대한 계수와 표준 편차가 모두 0 인 홀수 결과를 얻습니다. Generalized linear mixed …

22 r mixed-model stata glmm lme4-nlme

2

가중 최소 제곱 회귀에 대한 가중치는 어떻게 찾습니까?

나는 WLS 회귀 과정에서 약간 길을 잃었다. 나는 데이터 세트를 받았으며 내 임무는 이분산성이 있는지 테스트하고 그렇다면 WLS 회귀를 실행해야합니다. 테스트를 수행하고 이분산성에 대한 증거를 찾았으므로 WLS를 실행해야합니다. WLS는 기본적으로 변환 된 모델의 OLS 회귀라고 들었지만 변환 함수를 찾는 데 약간 혼란 스럽습니다. 나는 변환이 OLS 회귀에서 제곱 잔차의 함수가 …

22 regression heteroscedasticity weighted-regression

3

최대 가능성과 예상 가능성이 아닌 이유는 무엇입니까?

모수의 최대 우도 추정값을 얻는 것이 왜 그렇게 일반적입니까? 그러나 예상 우도 모수 추정치 에 대해 거의 듣지 못합니다 (즉, 우도 함수 모드 가 아닌 예상 값을 기준으로 )? 이것은 주로 역사적 이유나보다 실질적인 기술적 또는 이론적 인 이유 때문입니까? 최대 우도 추정치보다는 예상 우도 추정치를 사용하는 데 상당한 장점 …

22 probability mathematical-statistics maximum-likelihood optimization expected-value

4

Fisher의 LSD는 말 그대로 나쁜가요?

두 그룹에서 실험을 수행 할 때 (대개 표본 크기 (일반적으로 처리 그룹당 표본 크기는 약 7 ~ 8)) t- 검정을 사용하여 차이를 테스트합니다. 그러나 분산 분석을 수행 할 때 (분명히 두 개 이상의 그룹에 대해) Bonferroni (LSD / # 쌍별 비교) 또는 Tukey의 라인을 따라 무언가를 사후에 사용하고 학생으로서 경고를 …

22 anova multiple-comparisons post-hoc bonferroni fishers-lsd

3

사전에 부적절하게 어떻게 적절한 후방 분포를 이룰 수 있습니까?

적절한 사전 배포의 경우 피( θ ∣ X) = P( X∣ θ ) P( θ )피( X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝ P( X∣ θ ) P( θ )∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) . 이 단계에 대한 일반적인 정당성의 여백 분포이다 , ,에 대해 상수 인 사후 분포를 …

22 distributions bayesian prior posterior

5

대규모 데이터 세트에 대한 탐색 적 분석을 유지하는 방법은 무엇입니까?

큰 데이터 세트 (많은 샘플, 많은 변수)에 대한 탐색 적 분석을 시작할 때 종종 수백 개의 파생 변수와 톤의 다른 플롯으로 나 자신을 발견하며 실제 상황을 추적 할 수있는 방법이 없습니다. 처음부터 방향이 없기 때문에 코드는 스파게티처럼 끝납니다. 탐색 적 분석을 깔끔하고 깔끔하게 유지하기 위해 권장되는 방법이 있습니까? 특히, 여러 …

22 eda project-management

2

이진 행렬 클러스터링

250k x 100 차원 의 이진 피처 로 반 소형 행렬이 있습니다 . 각 행은 사용자이며 열은 일부 사용자 동작의 이진 "태그"입니다 (예 : "likes_cats"). user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 …

22 r clustering binary-data

3

심슨의 역설 이해하기 : 성별과 신장에 대한 회귀 소득을 가진 앤드류 겔먼의 사례

최근 블로그 게시물 중 하나 에서 Andrew Gelman 은 다음과 같이 말합니다. 나는 심슨의 역설에 반의 상이나 잠재적 인 결과가 필요하다고 생각하지 않는다. 나는 조작 할 수 없거나 조작이 직접 관심이없는 변수로 심슨의 역설을 설정할 수 있기 때문에 이것을 말합니다. Simpson의 역설은 예측 변수를 더 추가하면 회귀 계수가 변경되는 일반적인 …

22 regression interaction simpsons-paradox

2

탄력적 순 로지스틱 회귀 분석에서 최적의 알파 선택

0에서 1 사이 glmnet의 그리드에서 람다 값을 선택하여 R 의 패키지를 사용하여 건강 관리 데이터 세트에서 탄력적 그물 로지스틱 회귀를 수행하고 있습니다. 약식 코드는 다음과 같습니다.αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} 씩 증가하면서 에서 까지의 각 알파 …

22 machine-learning cross-validation glmnet elastic-net

3

R의 wilcox.test ()에 의한 W 통계량 출력은 U 통계량과 동일합니까?

최근 Mann-Whitney U 테스트에 대해 읽었습니다. R에서이 테스트를 수행하려면 실제로 Wilcoxon 테스트를 실행해야합니다. 내 질문 : wilcox.testR 의 W 통계 는 U 통계와 동일합니까?

22 r wilcoxon-mann-whitney