통계 및 빅 데이터

2

스플라인, 스무딩 스플라인 및 가우시안 프로세스 에뮬레이터를 사용할 때의 장단점은 무엇입니까?

다항식 보간법에 대한 대안을 배우고 구현하는 데 관심이 있습니다. 그러나 이러한 방법의 작동 방식, 관련 방법 및 비교 방법에 대한 적절한 설명을 찾는 데 어려움을 겪고 있습니다. 이러한 방법이나 대안이 유용 할 수있는 장단점에 대한 귀하의 의견에 감사 드리지만 텍스트, 슬라이드 또는 팟 캐스트에 대한 좋은 참고 자료로 충분합니다.

20 interpolation splines

2

양방향 ANOVA에서 상호 작용에 대한 NULL 가설은 무엇입니까?

각각 두 가지 수준 (A1, A2 및 B1, B2)과 응답 변수 (y)를 갖는 두 가지 요인 (A 및 B)이 있다고 가정합니다. 유형의 양방향 ANOVA를 수행 할 때 : y~A+B+A*B 우리는 세 가지 귀무 가설을 테스트하고 있습니다. 요인 A의 평균에는 차이가 없습니다 요인 B의 평균 차이는 없습니다 요인 A와 B 사이에는 …

20 hypothesis-testing anova

2

ROC 곡선 분석에서 공변량 조정

이 질문은 상관 척도의 존재 하에서 이진 종점을 예측하기 위해 다차원 스크리닝 설문지에서 컷오프 점수를 추정하는 것에 관한 것입니다. 알코올 중독 검사에 사용될 수있는 측정 척도 (개인 특성)의 각 차원에서 컷오프 점수를 고안 할 때 관련 하위 점수를 제어하는 데 관심이있었습니다. 즉,이 특정한 경우에, 사람은 외부 공변량 (예측 자)에 대한 …

20 epidemiology roc

3

“커널 트릭”을 선형 방법에 적용 하시겠습니까?

커널 트릭은 여러 기계 학습 모델 (예에 사용되는 SVM ). 그것은 1964 년에 "패턴 인식 학습의 잠재적 기능 방법의 이론적 기초"논문에서 처음 소개되었다. 위키 백과 정의에 따르면 원래의 비선형 관측치를보다 높은 차원의 공간으로 매핑함으로써 선형 비 분류 알고리즘을 사용하여 비선형 문제를 해결하는 방법; 이렇게하면 새 공간의 선형 분류가 원래 공간의 …

20 machine-learning kernel-trick

6

ANOVA와 ANCOVA를 이해하기위한 좋은 자료?

논문에 대한 실험을 진행 중이며 분산 분석 및 ANCOVA의 작동 방식을 올바르게 이해하기위한 흥미로운 책 / 웹 사이트를 찾고 있습니다. 나는 수학 배경이 좋기 때문에 반드시 저속한 설명이 필요하지 않습니다. 또한 ANCOVA 대신 ANOVA를 사용할시기를 결정하는 방법을 알고 싶습니다.

20 anova references ancova

3

다중 대치 사용시 혼합 효과 모델의 분산 성분에 대한 신뢰 구간을 결합하는 방법

다중 대치 (MI)의 논리는 누락 된 값을 한 번이 아니라 여러 번 (일반적으로 M = 5) 번 대치하여 M이 완료된 데이터 세트를 생성하는 것입니다. 그런 다음 M 완료 데이터 세트를 완료 데이터 방법으로 분석하여 M 추정치 및 표준 오류를 Rubin 공식을 사용하여 결합하여 "전체"추정치 및 표준 오류를 얻습니다. 지금까지는 훌륭하지만 …

20 modeling confidence-interval mixed-model data-imputation

4

실제로 사용되는 Metropolis-Hastings 알고리즘

나는 오늘 Christian Robert의 블로그를 읽고 있었고 그가 논의한 새로운 Metropolis-Hastings 알고리즘을 매우 좋아했습니다. 간단하고 구현하기 쉬운 것처럼 보였습니다. MCMC를 코딩 할 때마다 독립적 인 이동 또는 로그 스케일에서의 임의의 이동과 같은 매우 기본적인 MH 알고리즘을 사용하는 경향이 있습니다. 사람들이 일상적으로 사용하는 MH 알고리즘은 무엇입니까? 특히: 왜 그것들을 사용합니까? 어떤 …

20 mcmc metropolis-hastings

14

쉽고 견고한 데이터 탐색을위한 소프트웨어

스프레드 시트 대항에 맞서려는 노력에서 필자는 종종 통계 소프트웨어 (R, Stata 등)와 같은보다 강력한 도구를 추진하는 데 복음을 전합니다. 최근에 나는 단순히 프로그래밍을 배우지 않을 것이라고 평평한 사람이이 견해에 도전했습니다. 나는 프로그래밍이 필요없는 데이터 분석 도구를 제공하고 싶습니다 (그러나 나중에 발가락을 물에 담그기로 결정하면 프로그래밍으로 확장되는 것이 이상적입니다). 데이터 탐색을 …

20 data-visualization software

4

쿠폰 수집기 시간에 대한 하한은 얼마입니까?

티티T엔엔n이자형[ T] ∼ n ln엔이자형[티]∼엔ln⁡엔E[T] \sim n \ln n Va r ( T) ~ N2V에이아르 자형(티)∼엔2Var(T) \sim n^2Pr ( T> n lnn + c n ) < e− c홍보(티>엔ln⁡엔+기음엔)<이자형−기음\Pr(T > n \ln n + cn) < e^{-c} 이 상한은 체비 쇼프 불평등에 의해 주어진 것보다 낫습니다. 이것은 대략 1 / …

20 probability probability-inequalities coupon-collector-problem

6

내 날씨가 정확합니까?

한동안 나를 귀찮게 한 질문, 어떻게 해결할 지 모르겠다. 매일 내 기상학자는 비가 올 확률을 나타냅니다 (9000 자리수로 계산했다고 가정하고 숫자를 반복하지는 않았습니다). 그후 매일 비가 내리거나 비가 내리지 않습니다. pct 기회 대 비 여부에 관계없이 수년간의 데이터가 있습니다. 이 기상 학자의 역사를 감안할 때 , 오늘 밤 내일 비가 …

20 hypothesis-testing forecasting

2

임의의 포리스트는 임의의 포리스트를 생성하는 방법

나는 임의의 숲 전문가가 아니지만 임의의 숲의 주요 문제는 (임의의) 나무 생성이라는 것을 분명히 이해하고 있습니다. 나무가 어떻게 생성되는지 설명해 주시겠습니까? (즉, 트리 생성에 사용 된 분포는 무엇입니까?) 미리 감사드립니다!

20 machine-learning r algorithms cart random-forest

4

엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?

정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

5

언제 데이터 기반 기준을 사용하여 회귀 모델을 지정할 수 있습니까?

많은 회귀 모델 사양 (예 : OLS)이 데이터 집합의 가능성으로 간주 될 때 여러 비교 문제가 발생하고 p- 값과 신뢰 구간이 더 이상 신뢰할 수 없다고 들었습니다. 이에 대한 한 가지 극단적 인 예는 단계적 회귀입니다. 데이터 자체를 사용하여 모델을 지정하는 데 도움이되는시기는 언제이며 이것이 올바른 방법이 아닌 경우는 언제입니까? …

20 regression frequentist multiple-comparisons

5

과목 내 시험 후 사후 검사?

과목 내 시험 후 사후 수행을 위해 선호되는 방법은 무엇입니까? 나는 Tukey의 HSD가 사용되는 출판 된 작품을 보았지만 Keppel과 Maxwell & Delaney의 검토에 따르면 이러한 디자인에서 구형의 위반 가능성이 오류 용어를 부정확하게 만들고이 접근 방식에 문제가 있다고 제안합니다. Maxwell & Delaney는 그들의 책에서 문제에 대한 접근 방식을 제공하지만 통계 패키지에서 …

20 r repeated-measures multiple-comparisons post-hoc sphericity

4

모델이 데이터에 적합하거나 데이터에 적합합니까?

모델에 데이터를 피팅하는 것과 데이터에 모델을 피팅하는 것 사이에 개념적 또는 절차상의 차이가 있습니까? 제 표현의 예에서 알 수 https://courses.washington.edu/matlab1/ModelFitting.html 하고, 두 번째의 https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

20 terminology