통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
스플라인, 스무딩 스플라인 및 가우시안 프로세스 에뮬레이터를 사용할 때의 장단점은 무엇입니까?
다항식 보간법에 대한 대안을 배우고 구현하는 데 관심이 있습니다. 그러나 이러한 방법의 작동 방식, 관련 방법 및 비교 방법에 대한 적절한 설명을 찾는 데 어려움을 겪고 있습니다. 이러한 방법이나 대안이 유용 할 수있는 장단점에 대한 귀하의 의견에 감사 드리지만 텍스트, 슬라이드 또는 팟 캐스트에 대한 좋은 참고 자료로 충분합니다.


2
ROC 곡선 분석에서 공변량 조정
이 질문은 상관 척도의 존재 하에서 이진 종점을 예측하기 위해 다차원 스크리닝 설문지에서 컷오프 점수를 추정하는 것에 관한 것입니다. 알코올 중독 검사에 사용될 수있는 측정 척도 (개인 특성)의 각 차원에서 컷오프 점수를 고안 할 때 관련 하위 점수를 제어하는 ​​데 관심이있었습니다. 즉,이 특정한 경우에, 사람은 외부 공변량 (예측 자)에 대한 …
20 epidemiology  roc 

3
“커널 트릭”을 선형 방법에 적용 하시겠습니까?
커널 트릭은 여러 기계 학습 모델 (예에 사용되는 SVM ). 그것은 1964 년에 "패턴 인식 학습의 잠재적 기능 방법의 이론적 기초"논문에서 처음 소개되었다. 위키 백과 정의에 따르면 원래의 비선형 관측치를보다 높은 차원의 공간으로 매핑함으로써 선형 비 분류 알고리즘을 사용하여 비선형 문제를 해결하는 방법; 이렇게하면 새 공간의 선형 분류가 원래 공간의 …

6
ANOVA와 ANCOVA를 이해하기위한 좋은 자료?
논문에 대한 실험을 진행 중이며 분산 분석 및 ANCOVA의 작동 방식을 올바르게 이해하기위한 흥미로운 책 / 웹 사이트를 찾고 있습니다. 나는 수학 배경이 좋기 때문에 반드시 저속한 설명이 필요하지 않습니다. 또한 ANCOVA 대신 ANOVA를 사용할시기를 결정하는 방법을 알고 싶습니다.

3
다중 대치 사용시 혼합 효과 모델의 분산 성분에 대한 신뢰 구간을 결합하는 방법
다중 대치 (MI)의 논리는 누락 된 값을 한 번이 아니라 여러 번 (일반적으로 M = 5) 번 대치하여 M이 완료된 데이터 세트를 생성하는 것입니다. 그런 다음 M 완료 데이터 세트를 완료 데이터 방법으로 분석하여 M 추정치 및 표준 오류를 Rubin 공식을 사용하여 결합하여 "전체"추정치 및 표준 오류를 얻습니다. 지금까지는 훌륭하지만 …

4
실제로 사용되는 Metropolis-Hastings 알고리즘
나는 오늘 Christian Robert의 블로그를 읽고 있었고 그가 논의한 새로운 Metropolis-Hastings 알고리즘을 매우 좋아했습니다. 간단하고 구현하기 쉬운 것처럼 보였습니다. MCMC를 코딩 할 때마다 독립적 인 이동 또는 로그 스케일에서의 임의의 이동과 같은 매우 기본적인 MH 알고리즘을 사용하는 경향이 있습니다. 사람들이 일상적으로 사용하는 MH 알고리즘은 무엇입니까? 특히: 왜 그것들을 사용합니까? 어떤 …

14
쉽고 견고한 데이터 탐색을위한 소프트웨어
스프레드 시트 대항에 맞서려는 노력에서 필자는 종종 통계 소프트웨어 (R, Stata 등)와 같은보다 강력한 도구를 추진하는 데 복음을 전합니다. 최근에 나는 단순히 프로그래밍을 배우지 않을 것이라고 평평한 사람이이 견해에 도전했습니다. 나는 프로그래밍이 필요없는 데이터 분석 도구를 제공하고 싶습니다 (그러나 나중에 발가락을 물에 담그기로 결정하면 프로그래밍으로 확장되는 것이 이상적입니다). 데이터 탐색을 …

4
쿠폰 수집기 시간에 대한 하한은 얼마입니까?
티티T엔엔n이자형[ T] ∼ n ln엔이자형[티]∼엔ln⁡엔E[T] \sim n \ln n Va r ( T) ~ N2V에이아르 자형(티)∼엔2Var(T) \sim n^2Pr ( T&gt; n lnn + c n ) &lt; e− c홍보(티&gt;엔ln⁡엔+기음엔)&lt;이자형−기음\Pr(T > n \ln n + cn) < e^{-c} 이 상한은 체비 쇼프 불평등에 의해 주어진 것보다 낫습니다. 이것은 대략 1 / …

6
내 날씨가 정확합니까?
한동안 나를 귀찮게 한 질문, 어떻게 해결할 지 모르겠다. 매일 내 기상학자는 비가 올 확률을 나타냅니다 (9000 자리수로 계산했다고 가정하고 숫자를 반복하지는 않았습니다). 그후 매일 비가 내리거나 비가 내리지 않습니다. pct 기회 대 비 여부에 관계없이 수년간의 데이터가 있습니다. 이 기상 학자의 역사를 감안할 때 , 오늘 밤 내일 비가 …


4
엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?
정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
언제 데이터 기반 기준을 사용하여 회귀 모델을 지정할 수 있습니까?
많은 회귀 모델 사양 (예 : OLS)이 데이터 집합의 가능성으로 간주 될 때 여러 비교 문제가 발생하고 p- 값과 신뢰 구간이 더 이상 신뢰할 수 없다고 들었습니다. 이에 대한 한 가지 극단적 인 예는 단계적 회귀입니다. 데이터 자체를 사용하여 모델을 지정하는 데 도움이되는시기는 언제이며 이것이 올바른 방법이 아닌 경우는 언제입니까? …

5
과목 내 시험 후 사후 검사?
과목 내 시험 후 사후 수행을 위해 선호되는 방법은 무엇입니까? 나는 Tukey의 HSD가 사용되는 출판 된 작품을 보았지만 Keppel과 Maxwell &amp; Delaney의 검토에 따르면 이러한 디자인에서 구형의 위반 가능성이 오류 용어를 부정확하게 만들고이 접근 방식에 문제가 있다고 제안합니다. Maxwell &amp; Delaney는 그들의 책에서 문제에 대한 접근 방식을 제공하지만 통계 패키지에서 …

4
모델이 데이터에 적합하거나 데이터에 적합합니까?
모델에 데이터를 피팅하는 것과 데이터에 모델을 피팅하는 것 사이에 개념적 또는 절차상의 차이가 있습니까? 제 표현의 예에서 알 수 https://courses.washington.edu/matlab1/ModelFitting.html 하고, 두 번째의 https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.