통계 및 빅 데이터

6

나는 최근 경쟁 요구 사항에 따라 roc auc 점수가 사용되는 Kaggle 경쟁을 완료했습니다. 이 프로젝트 이전에는 일반적으로 f1 점수를 메트릭으로 사용하여 모델 성능을 측정했습니다. 앞으로이 두 지표 중에서 어떻게 선택해야하는지 궁금합니다. 언제 어떤 것을 사용해야하며 각각의 장단점이 무엇입니까? Btw, 나는 기사를 읽었습니다. AUC와 F1 점수의 차이점은 무엇입니까? 그러나 언제 어느 …

26 machine-learning modeling roc scoring-rules

2

Dirichlet 분포의 알파는 정확히 무엇입니까?

저는 베이지안 통계를 처음 접했 을 때 알고리즘의 백엔드에서 Dirichlet 프로세스를 사용 하는 수정 된 상관 측정 SparCC 를 발견했습니다. 실제로 무슨 일이 일어나고 있는지 이해하기 위해 단계별로 알고리즘을 시도했지만 alphaDirichlet 분포에서 벡터 매개 변수가 무엇을하는지 그리고 벡터 매개 변수가 어떻게 정규화되는지 확실 하지 않습니다 alpha. 구현은 https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html 을 Python사용하고 …

26 distributions bayesian dirichlet-distribution

1

PCA로 얻은 낮은 순위 근사 행렬에 의해 재구성 오류의 표준은 무엇입니까?

행렬의 PCA (또는 SVD) 근사 감안할 때 와 매트릭스 , 우리는 알고 의 가장 낮은 순위 근사 .XXXX^X^\hat XX^X^\hat XXXX 이것은 유도 된 규범∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2 (즉, 가장 큰 고유 값 규범) 또는 Frobenius 규범에 따른 것입니까?∥⋅∥F∥⋅∥F\parallel \cdot \parallel_F

26 pca svd matrix-decomposition

2

신뢰 구간을 사용할 때 여러 비교 조정을 처리해야합니까?

쌍별 통계에 대한 사후 추론 또는 다중 회귀 와 같은 다중 비교 시나리오가 있다고 가정합니다.mmm합니다. 또한 신뢰 구간을 사용하여 이러한 배수의 추론을 지원한다고 가정합니다. 1. CI에 여러 비교 조정을 적용합니까? 즉, 다중 비교가 αα\alpha 를 재정 의하여 FWER ( family-wise error rate ) 또는 FDR ( False Discovery Rate 신뢰 …

26 confidence-interval multiple-comparisons inference

1

svm에서 일대일 및 일대일?

일대일 및 일대일 SVM 분류기의 차이점은 무엇입니까? one-vs-all은 새로운 이미지의 모든 유형 / 범주를 분류하는 하나의 분류자를 의미하고 one-vs-one은 다른 분류 자로 분류되는 새로운 이미지의 각 유형 / 범주를 의미합니까 (각 범주는 특수 분류 자에 의해 처리됨)? 예를 들어, 새 이미지가 원, 사각형, 삼각형 등으로 분류되는 경우

26 machine-learning classification svm

2

Python의 scikit-learn LDA가 올바르게 작동하지 않는 이유는 무엇이며 SVD를 통해 LDA를 어떻게 계산합니까?

scikit-learn차원 축소를 위해 기계 학습 라이브러리 (Python) 의 선형 판별 분석 (LDA)을 사용 하고 있었으며 결과에 대해 약간 궁금했습니다. LDA가 무엇을하고 있는지 궁금해서 scikit-learn결과가 예를 들어 수동 접근이나 R에서 수행 된 LDA와 다르게 보일 수 있습니다. 기본적으로 가장 중요한 scikit-plot것은 상관 관계가 있어야하는 두 변수 간의 상관 관계를 보여줍니다. 테스트를 …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

5

분포의 수렴과 확률의 수렴에 대한 직관적 인 설명

확률로 수렴하는 랜덤 변수와 분포로 수렴하는 임의 변수 사이 의 직관적 인 차이점 은 무엇입니까 ? 나는 수많은 정의와 수학 방정식을 읽었지만 실제로 도움이되지는 않습니다. (생태계를 공부하는 학부생입니다.) 랜덤 변수는 어떻게 단일 숫자로 수렴하지만 분포로 수렴 할 수 있습니까?

26 distributions random-variable convergence intuition

7

분포 가설 검정-귀무 가설을 "수락"할 수없는 경우이를 수행하는 요점은 무엇입니까?

GOF 검정, Kolmogorov-Smirnov, Anderson-Darling 등과 같은 다양한 가설 검정은 다음 기본 형식을 따릅니다.χ2χ2\chi^{2} H0H0H_0 : 데이터가 주어진 분포를 따릅니다. H1H1H_1 : 데이터가 주어진 분포를 따르지 않습니다. 일반적으로, 주어진 데이터가 일부 주어진 분포를 따른다는 주장을 평가하고, 하면 데이터는 일부 수준 에서 주어진 분포에 적합하지 않습니다 .H0H0H_0αα\alpha 그러나 거부하지 않으면 어떻게 될까요? …

26 hypothesis-testing distributions goodness-of-fit ecdf

1

변형 베이와 EM의 관계

Variational Bayes 방법이 EM 알고리즘의 일반화라는 것을 읽었습니다. 실제로 알고리즘의 반복 부분은 매우 유사합니다. EM 알고리즘이 Variational Bayes의 특수 버전인지 테스트하기 위해 다음을 시도했습니다. 는 데이터이고 X 는 잠재 변수의 모음이며 Θ 는 매개 변수입니다. 변분 베이 즈에서 우리는 근사 할 수 있도록이되도록 P ( X , Θ | Y …

26 bayesian expectation-maximization variational-bayes

5

왜 이러한 진술이 평균에 대해 95 % CI에서 논리적으로 따르지 않습니까?

나는 Waekmakers의 웹 사이트 에서 다운로드 한 "신뢰 구간의 강력한 오해"에 관한 Hoekstra et al의 2014 년 논문을 읽었습니다 . 두 번째 페이지에 다음 이미지가 나타납니다. 저자에 따르면 False는 이러한 모든 진술에 대한 정답입니다. 나는 왜 그 진술이 거짓인지 잘 모르겠으며, 나머지 논문에서 말할 수있는 한 이것을 설명하지는 않습니다. 1-2와 …

26 hypothesis-testing confidence-interval

4

SVM에서 커널의 차이점은 무엇입니까?

누군가 SVM에서 커널의 차이점을 말해 줄 수 있습니까? 선의 다항식 가우시안 (RBF) 시그 모이 드 우리가 알고 있듯이 커널은 입력 공간을 높은 차원의 기능 공간으로 매핑하는 데 사용됩니다. 그리고 그 특징 공간에서 우리는 선형으로 분리 가능한 경계를 찾습니다. 그것들은 언제 (어떤 조건 하에서) 사용되며 왜 그런가?

26 machine-learning svm pattern-recognition kernel-trick

1

두 가우스 간의 지구 발동기 거리 (EMD)

과 사이에 EMD에 대한 닫힌 형식의 수식이 있습니까?x1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1)x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2)

26 normal-distribution distance

2

벡터에서 값의 Quantile 추정

실수 세트가 있습니다. 새로운 숫자의 분위수를 추정해야합니다. R에서 이것을 할 수있는 확실한 방법이 있습니까? 일반적으로? 나는 이것이 매우 사소하지 않기를 바란다. ;-) 귀하의 답변에 감사드립니다. PK

26 r

2

판별 분석의 세 가지 버전 : 차이점 및 사용 방법

아무도 차이점을 설명하고 이러한 세 가지 분석을 사용하는 방법에 대한 구체적인 예를 제시 할 수 있습니까? LDA-선형 판별 분석 FDA-피셔의 판별 분석 QDA-2 차 판별 분석 나는 모든 곳을 검색했지만 이러한 분석을 사용하고 데이터를 계산하는 방법을 볼 수있는 실제 값을 가진 실제 예제를 찾을 수 없었습니다. 실제 예제없이 이해하기 어려운 …

26 classification discriminant-analysis

3

내 글머 출력에서 '고정 효과의 상관 관계'를 어떻게 해석합니까?

다음과 같은 출력이 있습니다. Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: …

26 mixed-model poisson-distribution lme4-nlme