통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
경험적 우도의 예시적인 적용은 무엇입니까?
나는 Owen의 경험적 가능성에 대해 들었지만, 최근까지는 관심있는 논문에서 그것을 발견 할 때까지주의를 기울이지 않았습니다 ( Mengersen et al. 2012 ). 그것을 이해하려는 노력에서 관찰 된 데이터의 가능성이 여기서 이고 입니다.L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)엘=∏나는피나는=∏나는피(엑스나는=엑스)=∏나는피(엑스나는≤엑스)−피(엑스나는<엑스)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑나는피나는=1\sum_i p_i = 1pi>0피나는>0p_i > …

3
MCMC 알고리즘의 오류 예
Markov chain Monte Carlo 방법의 자동 확인 방법을 조사 중이며 이러한 알고리즘을 구성하거나 구현할 때 발생할 수있는 실수의 예를 원합니다. 출판 된 논문에 잘못된 방법을 사용한 경우 보너스 포인트. 다른 유형의 오류 (예 : 인체 공학적 체인이 아닌)도 관심이 있지만 오류가 체인에 부정확 한 분포가 있음을 의미하는 경우에 특히 관심이 …
28 mcmc 

1
혼합 효과 모델에서 랜덤 효과의 분산 및 상관 관계를 해석하는 방법은 무엇입니까?
여러분 모두이 질문에 신경 쓰지 않기를 바라지 만 R에서 배우려고했던 선형 혼합 효과 모델 출력에 대한 출력을 해석하는 데 도움이 필요합니다. 세로 데이터 분석 및 선형 혼합 효과 회귀에 익숙하지 않습니다. 나는 시간 예측 자로 몇 주를 맞춘 모델을 가지고 있으며, 고용 과정에서 내 성과로 점수를 매 깁니다. 몇 주 …

3
R과 함께 부트 스트랩을 사용하여 p- 값 계산
"boot"패키지를 사용하여 대략적인 양면 부트 스트랩 p- 값 을 계산 하지만 결과는 t.test를 사용하는 p- 값과 너무 멀리 떨어져 있습니다. R 코드에서 내가 뭘 잘못했는지 알 수 없습니다. 누군가 나에게 이것에 대한 힌트를 줄 수 있습니까? time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ …

4
자기 연구 대 교육?
programmers.SE 와 비슷한 의도를 가진 질문이 있습니다 . 그 질문에는 꽤 좋은 대답이 있지만, 일반적인 주제는 자기 연구가 없으면 아무데도 가지 않는 것 같습니다. 분명히 프로그래밍과 통계에는 큰 차이가 있습니다. 프로그래밍에서는 기본 논리를 배우고 반복적으로 적용하는 것입니다. 새로운 언어는 모두 동일한 기본 개념을 사용합니다. 자가 학습을 통해보다 고급 개념을 배우고 …

1
Google Prediction API 뒤에 무엇이 있습니까?
Google Prediction API 는 사용자가 몇 가지 교육 데이터를 제출하여 신비한 분류기를 훈련시킨 후 스팸 필터를 구현하거나 사용자 기본 설정을 예측하는 등 수신 데이터를 분류하도록 요청할 수있는 클라우드 서비스입니다. 그러나 배후에는 무엇이 있습니까?

3
데이터 분석의 모범 사례에 대해 배우려면 github을 팔로우해야 할 사람은 누구입니까?
전문가의 데이터 분석 코드를 연구하는 것이 도움이됩니다. 나는 최근에 github 에 대해 잘 알고 있으며 많은 사람들이 데이터 분석 코드를 공유하고 있습니다. 여기에는 몇 개의 R 패키지 (물론 CRAN에서 직접 구할 수 있음)뿐만 아니라 특히 R을 사용하는 재현 가능한 연구의 몇 가지 예도 포함됩니다 (github의이 R 목록 참조 ). 데이터 …


4
GLM에 대한 의사 R 제곱 공식
나는 R, Julian J. Faraway (p. 59)로 선형 모델 확장 책에서 pseudo 에 대한 공식을 찾았습니다 .아르 자형2아르 자형2R^2 1 - ResidualDevianceNullDeviance1−잔류 편차NullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . 이것이 GLM에 대한 의사 의 일반적인 공식 입니까?아르 자형2아르 자형2R^2

6
흥미롭고 잘 작성된 통계 자료는 무엇입니까?
재미 있고 유익한 정보를 얻을 수있는 통계 적용 에 대해 설명하는 좋은 논문은 무엇입니까 ? 명확히하기 위해, 나는 실제로 새로운 통계 방법을 설명하는 논문 (예를 들어, 최소 각도 회귀 논문)을 찾는 것이 아니라 실제 문제를 해결하는 방법을 설명하는 논문을 찾고 있습니다. 예를 들어, 내가보고있는 것에 맞는 한 종이는 두 번째 …

1
lmer 모델의 효과 반복 계산
방금 혼합 효과 모델링을 통해 측정의 반복성 (일명 신뢰성, 일명 클래스 내 상관 관계)을 계산하는 방법을 설명하는 이 문서를 보았습니다. R 코드는 다음과 같습니다. #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

5
두 개의 다변량 분포 사이의 "거리"측정
리소스를보다 쉽게 ​​찾을 수 있도록 내가하려는 일을 설명 할 수있는 좋은 용어를 찾고 있습니다. 따라서 두 개의 점 A와 B의 클러스터가 있는데, 각각 두 개의 값 X와 Y와 연관되어 있고 A와 B 사이의 "거리"를 측정하려고합니다. 즉, 동일한 분포에서 표본이 추출 될 가능성은 얼마나됩니까? (분포가 정상이라고 가정 할 수 있습니다). 예를 …

3
R로 시계열에 대해 신중하게하기
다시 생각하면 시계열 분석을 처음 시작했을 때까지입니다. 어떤 도구, R 패키지 및 인터넷 리소스를 알고 싶습니까? 내가 묻는 것은 어디에서 시작해야 하는가입니다. 구체적으로, R을 사용하여 시계열 분석에 "새로운"사람을 위해 그것을 진정시키는 R에 대한 자원이 있습니까?
28 r  time-series 


3
R에 불연속 균일 분포에 대한 기본 기능이 있습니까?
R의 대부분의 표준 분포에는 pdf / pmf, cdf / cmf, Quantile, random 편차가 있습니다 (예 : dnorm, pnorm, qnorm, rnorm). 불연속 균일 분포에 대한 이러한 기능을 재현하기 위해 일부 표준 명령을 사용하는 것이 쉽다는 것을 알고 있지만 이미 알지 못하는 R의 불연속 균일 분포를 모델링하기위한 기본 제공 기능 군이 이미 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.