통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
순열 테스트의 가정은 무엇입니까?
순열 테스트에는 가정이 없다고 종종 언급되지만 이는 사실이 아닙니다. 예를 들어 내 샘플이 어떻게 든 상관 관계가 있다면 레이블을 바꾸는 것이 올바른 방법이 아니라고 상상할 수 있습니다. 이 문제에 대해 내가 찾은 유일한 것은 위키피디아의이 문장입니다. "순열 테스트 뒤에 중요한 가정은 관측 값이 귀무 가설 하에서 교환 가능하다는 것입니다." 이해가 …

2
평균 절대 스케일 오차 (MASE)의 해석
MASE (Mean Absolute Scaled Error)는 Koehler & Hyndman (2006)이 제안한 예측 정확도의 척도입니다 . MASE=MAEMAEin−sample,naiveMASE=MAEMAEin−sample,naiveMASE=\frac{MAE}{MAE_{in-sample, \, naive}} 여기서 는 실제 예측에 의해 생성 된 평균 절대 오차입니다. 반면 (AN 예 : 변화 없음 예보 집적 순 예측에 의해 생성 된 평균 절대 에러 인 의 시간 시리즈)에서의 샘플 데이터를 계산 …

3
부분 의존도의 y 축 해석
이 질문은 교차 검증에서 답변 될 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 5 년 전에 마이그레이션 되었습니다 . 부분 의존성 플롯에 대한 다른 주제를 읽었으며 대부분은 정확하게 해석 할 수있는 방법이 아니라 다른 패키지로 실제로 플롯하는 방법에 관한 것입니다. 나는 상당한 양의 부분 의존도를 읽고 작성해 왔습니다. …

1
분산의 샘플링 분포가 카이 제곱 분포 인 이유는 무엇입니까?
진술 표본 분산의 표본 분포는 자유도가 n−1n−1n-1 인 카이 제곱 분포입니다 . 여기서nnn 은 표본 크기입니다 (관심있는 임의의 변수가 정규 분포를 따르는 경우). 출처 내 직감 1) 카이 제곱 테스트는 제곱합처럼 보이기 때문에 2) 카이 제곱 분포는 제곱 정규 분포의 합이기 때문에 다소 직관적입니다. 그러나 여전히, 나는 그것을 잘 이해하지 …

5
시계열 예측을 위해 데이터 세트를 분할하는 방법은 무엇입니까?
제과점의 과거 판매 데이터가 있습니다 (매일, 3 년 이상). 이제 주중, 날씨 변수 등과 같은 기능을 사용하여 향후 판매를 예측하는 모델을 만들고 싶습니다. 모델 피팅 및 평가를 위해 데이터 세트를 어떻게 분할해야합니까? 시간순으로 기차 / 검증 / 테스트 분할해야합니까? 그런 다음 열차 및 검증 세트로 하이퍼 파라미터 튜닝을 수행합니까? (중첩 …

2
데이터의 일부 변동에도 불구하고 혼합 모델에서 랜덤 효과의 분산이 0 인 이유는 무엇입니까?
다음 구문을 사용하여 혼합 효과 로지스틱 회귀 분석을 실행했습니다. # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 주제와 항목은 무작위 효과입니다. 주제 항에 대한 계수와 표준 편차가 모두 0 인 홀수 결과를 얻습니다. Generalized linear mixed …

2
가중 최소 제곱 회귀에 대한 가중치는 어떻게 찾습니까?
나는 WLS 회귀 과정에서 약간 길을 잃었다. 나는 데이터 세트를 받았으며 내 임무는 이분산성이 있는지 테스트하고 그렇다면 WLS 회귀를 실행해야합니다. 테스트를 수행하고 이분산성에 대한 증거를 찾았으므로 WLS를 실행해야합니다. WLS는 기본적으로 변환 된 모델의 OLS 회귀라고 들었지만 변환 함수를 찾는 데 약간 혼란 스럽습니다. 나는 변환이 OLS 회귀에서 제곱 잔차의 함수가 …

3
최대 가능성과 예상 가능성이 아닌 이유는 무엇입니까?
모수의 최대 우도 추정값을 얻는 것이 왜 그렇게 일반적입니까? 그러나 예상 우도 모수 추정치 에 대해 거의 듣지 못합니다 (즉, 우도 함수 모드 가 아닌 예상 값을 기준으로 )? 이것은 주로 역사적 이유나보다 실질적인 기술적 또는 이론적 인 이유 때문입니까? 최대 우도 추정치보다는 예상 우도 추정치를 사용하는 데 상당한 장점 …

4
Fisher의 LSD는 말 그대로 나쁜가요?
두 그룹에서 실험을 수행 할 때 (대개 표본 크기 (일반적으로 처리 그룹당 표본 크기는 약 7 ~ 8)) t- 검정을 사용하여 차이를 테스트합니다. 그러나 분산 분석을 수행 할 때 (분명히 두 개 이상의 그룹에 대해) Bonferroni (LSD / # 쌍별 비교) 또는 Tukey의 라인을 따라 무언가를 사후에 사용하고 학생으로서 경고를 …


5
대규모 데이터 세트에 대한 탐색 적 분석을 유지하는 방법은 무엇입니까?
큰 데이터 세트 (많은 샘플, 많은 변수)에 대한 탐색 적 분석을 시작할 때 종종 수백 개의 파생 변수와 톤의 다른 플롯으로 나 자신을 발견하며 실제 상황을 추적 할 수있는 방법이 없습니다. 처음부터 방향이 없기 때문에 코드는 스파게티처럼 끝납니다. 탐색 적 분석을 깔끔하고 깔끔하게 유지하기 위해 권장되는 방법이 있습니까? 특히, 여러 …

2
이진 행렬 클러스터링
250k x 100 차원 의 이진 피처 로 반 소형 행렬이 있습니다 . 각 행은 사용자이며 열은 일부 사용자 동작의 이진 "태그"입니다 (예 : "likes_cats"). user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 …

3
심슨의 역설 이해하기 : 성별과 신장에 대한 회귀 소득을 가진 앤드류 겔먼의 사례
최근 블로그 게시물 중 하나 에서 Andrew Gelman 은 다음과 같이 말합니다. 나는 심슨의 역설에 반의 상이나 잠재적 인 결과가 필요하다고 생각하지 않는다. 나는 조작 할 수 없거나 조작이 직접 관심이없는 변수로 심슨의 역설을 설정할 수 있기 때문에 이것을 말합니다. Simpson의 역설은 예측 변수를 더 추가하면 회귀 계수가 변경되는 일반적인 …

2
탄력적 순 로지스틱 회귀 분석에서 최적의 알파 선택
0에서 1 사이 glmnet의 그리드에서 람다 값을 선택하여 R 의 패키지를 사용하여 건강 관리 데이터 세트에서 탄력적 그물 로지스틱 회귀를 수행하고 있습니다. 약식 코드는 다음과 같습니다.αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} 씩 증가하면서 에서 까지의 각 알파 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.