통계 및 빅 데이터

8

기계 학습에서 사람들은 객관적인 기능, 비용 함수, 손실 기능에 대해 이야기합니다. 그들은 같은 것의 다른 이름입니까? 언제 사용합니까? 그들이 항상 같은 것을 언급하지 않는다면, 차이점은 무엇입니까?

80 machine-learning terminology artificial-intelligence

9

단일 실제 미래 이벤트의 가능성 : "Hillary의 우승 확률이 75 %입니다"라고 말할 때의 의미는 무엇입니까?

선거는 일회성 사건이므로 반복 할 수있는 실험이 아닙니다. 그래서 정확히 문 무엇을 않는다 "힐러리가 승리의 75 %의 확률" 기술적으로 의미? 직관적 또는 개념적 정의가 아닌 통계적으로 올바른 정의를 찾고 있습니다. 저는 토론에서 나온이 질문에 답하려고하는 아마추어 통계 팬입니다. 나는 그것에 대한 객관적인 반응이 있다고 확신하지만, 나는 그것을 스스로 생각 해낼 …

79 probability prediction politics

2

두 개의 일 변량 가우스 간의 KL 분기

두 가우스 간의 KL- 분산을 결정해야합니다. 나는 내 결과를 비교하고 이 있지만, 나는 그들의 결과를 재현 할 수 없습니다. KL (p, p)에 대해 KL이 0이 아니기 때문에 결과가 분명히 잘못되었습니다. 어디에서 실수를하는지 궁금해하고 누군가가 실수를 할 수 있는지 물어 봅니다. 하자 및 . 주교의 PRML에서 나는p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = …

79 normal-distribution kullback-leibler

7

유대 진주의 이유 : 왜 그는 통계를 강타합니까?

나는 유대 진주에 의해 왜 책을 읽고 있는데, 그것은 내 피부 아래에있다 1 . 특히, 통계는 결코 인과 관계를 조사 할 수없고, 인과 관계에 관심이 없으며, 통계는 "모형이되었다"는 짚맨 논쟁 을 함으로써 무조건적으로 "고전적인"통계를 강타 하고있는 것으로 보인다. 맹검 데이터 감소 기업 ". 그의 책에서 통계는 못 생겼다. 예를 들면 …

79 causality

8

히스토그램에서 최적의 빈 수 계산

히스토그램에 몇 개의 빈을 사용해야하는지 결정할 수있는 최적의 방법을 찾는 데 관심이 있습니다. 내 데이터의 범위는 최대 30 개에서 350 개 사이 여야합니다. 특히 Otsu의 방법과 같이 더 적어야하고 더 많이 퍼져 야하는 "좋은"개체가 " 나쁜 "개체, 더 가치가 있어야합니다. 구체적인 값은 각 개체에 대해 1-10 점입니다. 나는 6-10 점을 …

79 rule-of-thumb histogram

5

정책 외 학습과 정책 외 학습의 차이점은 무엇입니까?

인공 지능 웹 사이트는 정책 외 및 정책 외 학습을 다음과 같이 정의합니다. "외교 정책 학습자는 상담원의 행동과 독립적으로 최적 정책의 가치를 학습합니다. Q- 학습은 정책 외 학습자입니다. 정책 외 학습자는 탐구 단계를 포함하여 상담원이 수행하는 정책의 가치를 학습합니다 " 그들이 나에게 아무런 영향을 미치지 않는 것 같아서 이것에 관해 …

78 machine-learning reinforcement-learning artificial-intelligence

6

클러스터링 알고리즘이 의미있는 결과를 얻을 수있을 정도로 데이터가 "클러스터"되어 있는지 확인하는 방법은 무엇입니까?

kman 또는 다른 클러스터링 알고리즘의 결과가 실제로 의미가 있도록 (고차원) 데이터에 충분한 클러스터링이 있는지 어떻게 알 수 있습니까? 특히 k- 평균 알고리즘의 경우 실제 군집 결과가 의미가 있고 (가상하지 않은) 클러스터 내 분산의 감소가 얼마나됩니까? 차원 적으로 축소 된 형태의 데이터가 그려 질 때 군집이 분명해야하고 군집을 시각화 할 수없는 …

78 clustering k-means

21

R 학습을위한 무료 리소스

저렴한 R 을 배우고 싶습니다 . R 학습을위한 최고의 무료 자료 / 책 / 자습서 란 무엇입니까?

78 r references

5

수동으로 곡선 아래 면적 (AUC) 또는 c- 통계량을 계산하는 방법

이진 로지스틱 회귀 모델의 수작업으로 곡선 아래 면적 (AUC) 또는 c- 통계량을 계산하는 데 관심이 있습니다. 예를 들어, 유효성 검사 데이터 집합에서 종속 변수에 대한 실제 값, 보존 (1 = 유지; 0 = 유지되지 않음)은 다음과 같은 모형을 사용하여 회귀 분석에 의해 생성 된 각 관측치의 예측 보존 상태를 갖습니다. …

78 regression logistic classification roc auc

7

연속 예측 변수를 분해하면 어떤 이점이 있습니까?

모델에서 값을 사용하기 전에 연속 예측 변수를 가져 와서 분해 (예 : 5 분위수)하는 데 어떤 가치가 있는지 궁금합니다. 변수를 비닝하면 정보가 손실되는 것 같습니다. 이것이 비선형 효과를 모델링 할 수 있도록하는 것입니까? 변수를 연속적으로 유지하고 실제로 직선 관계가 아닌 경우 데이터에 가장 잘 맞는 커브를 만들어야합니까?

78 regression modeling continuous-data binning regression-strategies

6

t-SNE 출력에 대한 클러스터링

클러스터 내에서 하위 그룹 효과를 찾기 전에 시끄러운 데이터 세트를 클러스터링하는 것이 편리한 응용 프로그램이 있습니다. 먼저 PCA를 살펴 봤지만 변동성의 90 %에 도달하기 위해서는 ~ 30 개의 구성 요소가 필요하므로 단지 몇 대의 PC에서 클러스터링하면 많은 정보가 버려집니다. 그런 다음 t-SNE (처음으로)를 시도했는데, 이는 k- 평균을 통한 군집화에 매우 …

78 clustering interpretation k-means tsne

1

공칭 (IV) 변수와 연속 (DV) 변수의 상관 관계

나는 명목상의 변수 (대화의 다른 주제, topic0 = 0 등으로 코딩 됨)와 대화의 길이와 같은 많은 규모 변수 (DV)를 가지고 있습니다. 공칭 변수와 척도 변수 사이의 상관 관계를 어떻게 도출 할 수 있습니까?

77 correlation continuous-data categorical-data

3

예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀

관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

k- 평균 군집 분석 결과의 예쁜 플롯을 생성하는 방법은 무엇입니까?

K- 평균 군집화를 위해 R을 사용하고 있습니다. K- 평균을 실행하기 위해 14 개의 변수를 사용하고 있습니다 K- 평균의 결과를 나타내는 가장 좋은 방법은 무엇입니까? 기존 구현이 있습니까? 14 개의 변수가 있으면 결과를 작성하는 것이 복잡합니까? 멋져 보이는 GGcluster라는 것을 발견했지만 여전히 개발 중입니다. 나는 또한 sammon 매핑에 대해 읽었지만 그것을 …

77 data-visualization classification k-means unsupervised-learning

3

R 제곱은 언제 음수입니까?

내 이해는 가 의 제곱이므로 음수가 될 수 없다는 것을 알고 있습니다. 그러나 SPSS에서 단일 독립 변수와 종속 변수를 사용하여 간단한 선형 회귀를 실행했습니다. 내 SPSS 출력은 대해 음수 값을 제공합니다 . R에서 직접 손으로 계산한다면 는 양수입니다. SPSS가 이것을 부정으로 계산하기 위해 무엇을 했습니까?R 2 R 2아르 자형2아르 자형2R^2아르 …

77 regression spss r-squared