통계 및 빅 데이터

3

AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC — 상호 교환 가능합니까?

에 p. PRNN 브라이언 리플리 (Brian Ripley)의 34 명은 "AIC는 Akaike의 약자라고 일반적으로 믿어 지지만 Akaike (1974)에 의해"정보 기준 "으로 명명되었다"고 언급했다. 실제로 AIC 통계를 소개 할 때 Akaike (1974, p.719)는 다음과 같이 설명합니다. "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc …

47 forecasting model-selection aic bic

2

폴드 교차 검증 에서 최적의 폴드 수 : leave-one-out CV가 항상 최선의 선택입니까?

컴퓨팅 파워 고려 사항을 제외하고, 교차 유효성 검사에서 접기 수 를 늘리면 더 나은 모델 선택 / 검증이 가능합니다 (즉, 접기 수가 많을수록 좋습니다)? 극단적 인 주장을 취하면, 일대일 교차 검증은 폴드 교차 검증 보다 더 나은 모델로 이어질 까요?KKK 이 질문에 대한 몇 가지 배경 : 나는 매우 적은 …

47 cross-validation bias-variance-tradeoff

5

QQplot 해석-비정규 성을 결정할 규칙이 있습니까?

QQplot이 다른 정규성 테스트보다 더 유익 할 수 있음을 이해하기 위해 QQplots에서 충분한 스레드를 읽었습니다. 그러나 QQplots를 해석 한 경험이 없습니다. 나는 많은 구글 검색; 나는 비정규 QQplots에 대한 많은 그래프를 찾았지만, 분포와 "장감"을 아는 것 외에는 그것을 해석하는 방법에 대한 명확한 규칙이 없습니다. 비정규 성을 결정하는 데 도움이되는 경험 …

47 interpretation normality-assumption qq-plot

4

기대 값이 산술 평균과 같은 이유는 무엇입니까?

오늘 저는 수학 기대라는 새로운 주제를 발견했습니다. 내가 따르는 책은 기대는 확률 분포에서 나오는 랜덤 변수의 산술 평균이라고 말합니다. 그러나 일부 데이터의 곱과 확률의 합으로 기대 값을 정의합니다. 이 두 가지 (평균과 기대)는 어떻게 동일 할 수 있습니까? 데이터와 확률 분포의 합이 전체 분포의 평균 일 수있는 방법은 무엇입니까?

47 expected-value

3

데이터 세트에서 피크를 찾으려면 어떻게합니까?

다음과 같은 그래프를 생성하는 데이터 세트가있는 경우 표시된 피크 (이 경우 3 개)의 x 값을 알고리즘 적으로 결정하는 방법은 무엇입니까?

47 data-visualization mode

5

R-QQPlot : 데이터의 정규 분포 여부 확인 방법

나는 Shapiro-Wilk 정규성 테스트를 한 후에 이것을 플로팅했습니다. 이 테스트는 모집단이 정규 분포를 따르는 것으로 나타났습니다. 그러나이 음모에서이 "행동"을 보는 방법은 무엇입니까? 최신 정보 데이터의 간단한 히스토그램 : 최신 정보 Shapiro-Wilk 테스트는 다음과 같이 말합니다.

47 r data-visualization normal-distribution histogram qq-plot

2

스플라인이 데이터에 비해 적합합니까?

내 문제 : 최근 스플라인은 데이터 탐색에만 유용하고 과적 합되어 예측에 유용하지 않다는 통계학자를 만났습니다. 그는 간단한 다항식으로 탐색하는 것을 선호했습니다 ... 나는 스플라인을 좋아하는 팬이므로, 나는이 주장이 얼마나 유효한지, 그리고 안티 스플라인 그룹이 큰지에 관심이 있습니다. 거기 운동가 ? 배경 : 모델을 만들 때 Frank Harrell, Regression Modeling Strategies …

47 regression splines

4

로지스틱 회귀 하위 집합 선택을 수행하는 방법은 무엇입니까?

나는 R에 이항 가족 glm을 피팅하고 있으며 설명 변수의 전체 그룹을 가지고 있으며 가장 좋은 것을 찾아야합니다 (측정 값이 R의 제곱이 좋습니다). 설명 변수의 임의의 다른 조합을 반복하는 스크립트를 작성하고 최상의 성능을 기록하는 기록이 부족하여 실제로 무엇을 해야할지 모르겠습니다. 그리고 leaps패키지 도약 의 기능 은 로지스틱 회귀를 수행하지 않는 것 …

47 r logistic

6

베이지안 통계 튜토리얼

Bayesian Statistics에서 속도를 높이려고합니다. 나는 약간의 통계 배경 (STAT 101)을 가지고 있지만 너무 많지는 않습니다-나는 이전, 후부 및 가능성을 이해할 수 있다고 생각합니다 : 아직 베이지안 교재를 읽고 싶지 않습니다. 나는 빨리 나를 끌어 올릴 소스 (웹 사이트 선호)에서 읽는 것을 선호합니다. 같은 뭔가 이 있지만, 그 자세한 내용이 있습니다. …

47 bayesian references

5

자체 패키지 작성 준비를위한 최초의 R 패키지 소스 코드 연구

R 패키지 작성을 시작할 계획입니다. 패키지 구성 규칙을 배우기 위해 기존 패키지의 소스 코드를 연구하는 것이 좋을 것이라고 생각했습니다. 공부하기 좋은 패키지에 대한 나의 기준 : 간단한 통계 / 기술 아이디어 : 요점은 패키지 구성의 메커니즘에 대해 배우는 것입니다. 패키지를 이해하려면 패키지의 실제 주제에 대한 자세한 도메인 별 지식이 필요하지 …

47 r

15

가장 혼란스러운 통계 용어

통계 학자들은 다른 사람들이 사용하는 방식과 약간 다른 방식으로 많은 단어를 사용합니다. 우리가하고있는 일을 가르치거나 설명 할 때 많은 문제가 발생합니다. 목록을 시작하겠습니다 (이제 주석마다 정의를 추가하겠습니다). 검정력은 귀무 가설을 올바르게 기각 할 수있는 능력입니다. 일반적으로 이것은 "뭔가 일어나고있다"는 말을 올바르게 의미합니다. 바이어스-통계가 관련 모집단 매개 변수와 체계적으로 다른 경우 …

47 terminology communication

3

곡선 모양을 기반으로 시계열 군집을 수행 할 수 있습니까?

일련의 아울렛에 대한 판매 데이터가 있고 시간에 따른 곡선 모양을 기준으로 분류하고 싶습니다. 데이터는 대략 다음과 같습니다 (그러나 무작위는 아니며 일부 누락 된 데이터가 있음). n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval …

47 r time-series clustering

7

t- 검정을 수행 할 때 항상 df의 Welch 근사값을 사용하지 않고 동일한 분산을 가정 (또는 검정)하는 것을 선호하는 이유는 무엇입니까?

분산의 동질성 가정이 충족되면 Welch 조정 t- 검정과 표준 t- 검정의 결과는 거의 동일합니다. 왜 항상 Welch 조정 t를 사용하지 않습니까?

47 variance t-test heteroscedasticity

14

신뢰 구간 해석에 대한 설명이 있습니까?

"신뢰 수준 갖는 신뢰 구간"개념에 대한 나의 현재 이해는 신뢰 구간을 여러 번 계산하려고하면 (매번 새로운 표본으로 각 시간마다) 올바른 매개 변수 를 포함한다는 것 입니다. 시각.1 - α1−α1 - \alpha1 - α1−α1 - \alpha 이것이 "진정한 매개 변수가이 간격에있을 확률"과 같지 않다는 것을 알고 있지만, 명확히하고 싶은 것이 있습니다. …

47 confidence-interval

2

GLM R의 잔차 및 널 편차 해석

R에서 GLM의 Null 및 Residual Deviance를 해석하는 방법은 무엇입니까? 마찬가지로 AIC가 작을수록 좋습니다. 이탈에 대한 유사하고 빠른 해석이 있습니까? Null 이탈 : 1077 자유도에서 1146.1 잔류 이탈 : 1099 자유도에서 4589.4 AIC : 11089

47 generalized-linear-model deviance