통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


9
단일 실제 미래 이벤트의 가능성 : "Hillary의 우승 확률이 75 %입니다"라고 말할 때의 의미는 무엇입니까?
선거는 일회성 사건이므로 반복 할 수있는 실험이 아닙니다. 그래서 정확히 문 무엇을 않는다 "힐러리가 승리의 75 %의 확률" 기술적으로 의미? 직관적 또는 개념적 정의가 아닌 통계적으로 올바른 정의를 찾고 있습니다. 저는 토론에서 나온이 질문에 답하려고하는 아마추어 통계 팬입니다. 나는 그것에 대한 객관적인 반응이 있다고 확신하지만, 나는 그것을 스스로 생각 해낼 …

2
두 개의 일 변량 가우스 간의 KL 분기
두 가우스 간의 KL- 분산을 결정해야합니다. 나는 내 결과를 비교하고 이 있지만, 나는 그들의 결과를 재현 할 수 없습니다. KL (p, p)에 대해 KL이 0이 아니기 때문에 결과가 분명히 잘못되었습니다. 어디에서 실수를하는지 궁금해하고 누군가가 실수를 할 수 있는지 물어 봅니다. 하자 및 . 주교의 PRML에서 나는p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = …

7
유대 진주의 이유 : 왜 그는 통계를 강타합니까?
나는 유대 진주에 의해 왜 책을 읽고 있는데, 그것은 내 피부 아래에있다 1 . 특히, 통계는 결코 인과 관계를 조사 할 수없고, 인과 관계에 관심이 없으며, 통계는 "모형이되었다"는 짚맨 논쟁 을 함으로써 무조건적으로 "고전적인"통계를 강타 하고있는 것으로 보인다. 맹검 데이터 감소 기업 ". 그의 책에서 통계는 못 생겼다. 예를 들면 …
79 causality 

8
히스토그램에서 최적의 빈 수 계산
히스토그램에 몇 개의 빈을 사용해야하는지 결정할 수있는 최적의 방법을 찾는 데 관심이 있습니다. 내 데이터의 범위는 최대 30 개에서 350 개 사이 여야합니다. 특히 Otsu의 방법과 같이 더 적어야하고 더 많이 퍼져 야하는 "좋은"개체가 " 나쁜 "개체, 더 가치가 있어야합니다. 구체적인 값은 각 개체에 대해 1-10 점입니다. 나는 6-10 점을 …

5
정책 외 학습과 정책 외 학습의 차이점은 무엇입니까?
인공 지능 웹 사이트는 정책 외 및 정책 외 학습을 다음과 같이 정의합니다. "외교 정책 학습자는 상담원의 행동과 독립적으로 최적 정책의 가치를 학습합니다. Q- 학습은 정책 외 학습자입니다. 정책 외 학습자는 탐구 단계를 포함하여 상담원이 수행하는 정책의 가치를 학습합니다 " 그들이 나에게 아무런 영향을 미치지 않는 것 같아서 이것에 관해 …

6
클러스터링 알고리즘이 의미있는 결과를 얻을 수있을 정도로 데이터가 "클러스터"되어 있는지 확인하는 방법은 무엇입니까?
kman 또는 다른 클러스터링 알고리즘의 결과가 실제로 의미가 있도록 (고차원) 데이터에 충분한 클러스터링이 있는지 어떻게 알 수 있습니까? 특히 k- 평균 알고리즘의 경우 실제 군집 결과가 의미가 있고 (가상하지 않은) 클러스터 내 분산의 감소가 얼마나됩니까? 차원 적으로 축소 된 형태의 데이터가 그려 질 때 군집이 분명해야하고 군집을 시각화 할 수없는 …


5
수동으로 곡선 아래 면적 (AUC) 또는 c- 통계량을 계산하는 방법
이진 로지스틱 회귀 모델의 수작업으로 곡선 아래 면적 (AUC) 또는 c- 통계량을 계산하는 데 관심이 있습니다. 예를 들어, 유효성 검사 데이터 집합에서 종속 변수에 대한 실제 값, 보존 (1 = 유지; 0 = 유지되지 않음)은 다음과 같은 모형을 사용하여 회귀 분석에 의해 생성 된 각 관측치의 예측 보존 상태를 갖습니다. …

7
연속 예측 변수를 분해하면 어떤 이점이 있습니까?
모델에서 값을 사용하기 전에 연속 예측 변수를 가져 와서 분해 (예 : 5 분위수)하는 데 어떤 가치가 있는지 궁금합니다. 변수를 비닝하면 정보가 손실되는 것 같습니다. 이것이 비선형 효과를 모델링 할 수 있도록하는 것입니까? 변수를 연속적으로 유지하고 실제로 직선 관계가 아닌 경우 데이터에 가장 잘 맞는 커브를 만들어야합니까?

6
t-SNE 출력에 대한 클러스터링
클러스터 내에서 하위 그룹 효과를 찾기 전에 시끄러운 데이터 세트를 클러스터링하는 것이 편리한 응용 프로그램이 있습니다. 먼저 PCA를 살펴 봤지만 변동성의 90 %에 도달하기 위해서는 ~ 30 개의 구성 요소가 필요하므로 단지 몇 대의 PC에서 클러스터링하면 많은 정보가 버려집니다. 그런 다음 t-SNE (처음으로)를 시도했는데, 이는 k- 평균을 통한 군집화에 매우 …


3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
k- 평균 군집 분석 결과의 예쁜 플롯을 생성하는 방법은 무엇입니까?
K- 평균 군집화를 위해 R을 사용하고 있습니다. K- 평균을 실행하기 위해 14 개의 변수를 사용하고 있습니다 K- 평균의 결과를 나타내는 가장 좋은 방법은 무엇입니까? 기존 구현이 있습니까? 14 개의 변수가 있으면 결과를 작성하는 것이 복잡합니까? 멋져 보이는 GGcluster라는 것을 발견했지만 여전히 개발 중입니다. 나는 또한 sammon 매핑에 대해 읽었지만 그것을 …

3
R 제곱은 언제 음수입니까?
내 이해는 가 의 제곱이므로 음수가 될 수 없다는 것을 알고 있습니다. 그러나 SPSS에서 단일 독립 변수와 종속 변수를 사용하여 간단한 선형 회귀를 실행했습니다. 내 SPSS 출력은 대해 음수 값을 제공합니다 . R에서 직접 손으로 계산한다면 는 양수입니다. SPSS가 이것을 부정으로 계산하기 위해 무엇을 했습니까?R 2 R 2아르 자형2아르 자형2R^2아르 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.