통계 및 빅 데이터

1

Galit Shmueli의 "설명하거나 예측하다" (2010) 를 읽은 나는 명백한 모순에 의아해한다. 세 가지 전제가 있습니다 AIC 대 BIC 기반 모델 선택 (300 페이지의 끝-301 페이지의 시작) : 간단히 말해 AIC는 예측 을위한 모델을 선택하는 데 사용되고 BIC는 설명을 위한 모델을 선택하는 데 사용해야합니다 . 또한 (위의 논문에서는 제외) 일부 조건에서 …

18 forecasting model-selection feature-selection aic bic

1

두 번째 순간 방법, 브라운 운동?

비티BtB_t 를 표준 브라운 운동 이라고하자 . 하자 이벤트를 나타낸다 및하자 여기서, 나타내고 인디케이터 기능. 존재 하는가 이되도록 대 모든 ? 나는 그 대답이 '예'라고 생각합니다. 나는 두 번째 순간 방법으로 엉망을 시도했지만별로 소용이 없습니다. 이것이 두 번째 모멘트 방법으로 보여 질 수 있습니까? 아니면 다른 것을 시도해야합니까?{ B t …

18 probability self-study moments distributions brownian

2

PCA, LASSO, 탄력적 네트워크의 속도, 계산 비용

나는 Hastie et al. "통계학 학습 요소"(2 판), 3 장 : 서브 세트 선택 수축 방법 도출 된 입력 방향을 사용하는 방법 (PCR, PLS) 아이디어를 제공하기 위해 비교가 매우 어려울 수 있습니다. 답은 문제의 차원과 그것이 어떻게 컴퓨터 아키텍처에 적합한 지에 따라 달라질 수 있으므로 구체적인 예를 들어 500 및 …

18 machine-learning estimation feature-selection algorithms time-complexity

4

데이터를 교육 및 테스트 세트로 분할하는 것만으로는 충분하지 않은 이유

분류기의 성능에 액세스하려면 데이터를 훈련 / 테스트 세트로 분할해야한다는 것을 알고 있습니다. 그러나 이것을 읽으십시오 : SVM에 대해 수동으로 설정해야하는 C 설정과 같은 추정기의 다른 설정 (“하이 파라미터”)을 평가할 때 추정기가 최적으로 수행 될 때까지 매개 변수를 조정할 수 있으므로 테스트 세트에 과적 합의 위험이 여전히 있습니다. 이런 식으로 테스트 …

18 machine-learning cross-validation

5

효과 크기 란 무엇이며 왜 유용합니까?

기초적인 대학원 수준의 통계 배경을 가지고 있습니다 (Wackerly et al., Ross 's Probability 등). 저는 최근 교육 통계에서 실험 설계 및 통계보고를하는 일을 시작했으며 기본적으로 학교에 대한 책임 측정 기준을 평가하고 데이터를 분석하고 변경 사항을 제안해야하는 프로젝트에 참여했습니다. 수학 통계 배경을 가진 내 부서에서 하나. 제 입장에서 사람들은 프로그램의 효과를 …

18 effect-size group-differences

2

경험적 선행의 문제점은 무엇입니까?

문헌에서 나는 때때로 데이터 자체에 의존하는 사전을 선택하는 것 (예 : Zellners g-prior)이 이론적 관점에서 비판 될 수 있다고 언급하면서 종종 걸림돌로 생각한다. 데이터와 독립적으로 이전을 선택하지 않으면 문제가 정확히 어디입니까?

18 bayesian prior hierarchical-bayesian

3

단위 루트가없는 시리즈가 고정되어 있지 않은 좋은 예?

나는 사람들이 증강 Dickey-Fuller 테스트 에서 null을 거부하는 것을 여러 번 보았고 시리즈가 정지되어 있음을 주장한다고 주장했습니다 (불행히도 이러한 주장의 출처를 보여줄 수는 없지만 비슷한 주장이 여기 저기에 있다고 상상해보십시오. 하나 또는 다른 저널). 나는 그것이 오해라고 주장한다 (단위 루트의 널 (NULL)을 거부하는 것이 정지 된 시리즈를 갖는 것과 반드시 …

18 time-series unit-root stationarity augmented-dickey-fuller

2

포아송 모델에서 공변량 또는 오프셋으로 시간을 사용하는 것의 차이점은 무엇입니까?

최근에 Poisson 회귀 분석에서 시간 로그 (예 : 시간 로그)를 오프셋으로 사용하여 노출을 모델링하는 방법을 발견했습니다. 오프셋은 계수 1과 공변량으로 시간을 갖는 것과 일치한다는 것을 이해했습니다. 시간을 오프셋으로 사용하거나 정규 공변량으로 사용하여 차이를 계산하는 것의 차이를 더 잘 이해하고 싶습니다 (따라서 계수 추정). 어떤 상황에서 한 가지 방법을 사용해야합니까? 업그레이드 …

18 poisson-regression predictor offset

1

치트 시트 ANOVA 알파벳 수프 및 회귀 분석

ANOVA 및 REGRESSION에 해당하는 베어링을 가져 오려고이 임시 (진행중인) 시도를 완료하는 데 도움을받을 수 있습니까? 이 두 가지 방법론의 개념, 명명법 및 구문을 조정하려고 노력했습니다. 이 사이트에는 공통점에 대한 많은 게시물이 있습니다 (예 : this 또는 this ). 그러나 시작할 때 빠른 "현재 위치"맵을 유지하는 것이 좋습니다. 이 게시물을 업데이트 …

18 regression anova mixed-model

2

독립적 인 성분 분석 이해

나는 주성분 분석에 대한 이해 라는 질문을보고 즐겼으며, 이제 독립 성분 분석에 대해서도 같은 질문을합니다. ICA를 이해하는 직관적 인 방법에 대해 포괄적 인 질문을하고 싶습니다. 이해 하고 싶습니다 . 나는 그것의 목적을 얻고 싶다. 느낌을 받고 싶습니다. 나는 그것을 강력하게 믿습니다. 할머니에게 설명 할 수 없다면 실제로 무언가를 이해하지 못합니다. …

18 intuition ica

1

LOOCV 공식 증명

James et al.의 통계 학습 에 이르기까지 Leave-One-Out Cross-Validation) 추정치는 여기서 입니다.MSEI=(Y는I - Y I)(2)CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 증거가 없으면 식 (5.2)에 최소 제곱 또는 다항식 회귀의 경우 (한 변수에 대한 회귀에 적용되는지 여부는 알 수 없음) 여기서 " 는 원래 최소 제곱 피팅 의 번째 적합 값 ( …

18 regression self-study cross-validation least-squares

4

때

및 , 이라고합시다 . 을 로 기대하는 것은 무엇입니까 ?X1∼U[0,1]X1∼U[0,1]X_1 \sim U[0,1]Xi∼U[Xi−1,1]Xi∼U[Xi−1,1]X_i \sim U[X_{i - 1}, 1]i=2,3,...i=2,3,...i = 2, 3,...X1X2⋯XnX1X2⋯XnX_1 X_2 \cdots X_nn→∞n→∞n \rightarrow \infty

18 mathematical-statistics random-variable expected-value

1

올가미, 릿지 또는 탄성 그물 솔루션 경로가 모노톤 인 명확한 조건이 있습니까?

이 올가미 플롯 (glmnet)에서 결론을 내릴 수 있는 질문 은 단조롭지 않은 올가미 추정기의 솔루션 경로를 보여줍니다. 즉, 일부 계수기는 축소되기 전에 절대 값으로 증가합니다. 나는이 모델들을 몇 가지 다른 종류의 데이터 세트에 적용했으며이 행동을 "와일드하게"본 적이 없으며 오늘날까지도 항상 단조로운 것으로 가정했습니다 . 솔루션 경로가 단조임을 보장하는 명확한 조건이 …

18 lasso ridge-regression elastic-net

1

혼동 행렬은 K- 폴드 교차 검증에서 어떻게보고됩니까?

K = 10 배로 K 배 교차 검증을 수행한다고 가정합니다. 각 접기마다 하나의 혼동 행렬이 있습니다. 결과를보고 할 때 평균 혼동 행렬이 무엇인지 계산하거나 혼동 행렬을 합산해야합니까?

18 machine-learning cross-validation accuracy

1

Hartigans의 딥 테스트 해석

나는 경험적으로 얻은 일부 분포의 이형성 강도를 정량화하는 방법을 찾고 싶습니다. 내가 읽은 것으로부터, 바이 모달리티를 정량화하는 방법에 대한 논쟁이 여전히 남아 있습니다. 나는 R에서 사용할 수있는 유일한 것 인 Hartigans의 딥 테스트를 사용하기로 선택했습니다 (원본 : http://www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf ). Hartigans의 딥 테스트는 다음과 같이 정의됩니다. " 딥 테스트는 모든 샘플 …

18 r distributions