통계 및 빅 데이터

1

동일한 데이터 세트로 다른 이진 분류 알고리즘에서 10 배 교차 검증을 실행했으며 마이크로 및 매크로 평균 결과를 모두 받았습니다. 이것이 다중 레이블 분류 문제라는 점을 언급해야합니다. 필자의 경우, 참 부정과 참 긍정적 가중치는 동일하게 가중됩니다. 즉, 참 긍정을 정확하게 예측하는 것이 참 긍정을 정확하게 예측하는 것과 마찬가지로 중요합니다. 미세 평균 …

21 machine-learning cross-validation

2

능선 회귀의 가정은 무엇이고 어떻게 테스트합니까?

다중 회귀 분석을위한 표준 모델 고려 때문에 정상, homoscedasticity 모든 홀드 오류를 uncorrelatedness.와이= Xβ+ ε와이=엑스β+εY=X\beta+\varepsilonε ∼ N( 0 , σ2나는엔)ε∼엔(0,σ2나는엔)\varepsilon \sim \mathcal N(0, \sigma^2I_n) 대각선의 모든 요소에 동일한 소량을 추가하여 능선 회귀를 수행한다고 가정합니다 .엑스엑스X βr i d g e= [ X'엑스+ k I]− 1엑스'와이β아르 자형나는디지이자형=[엑스'엑스+케이나는]−1엑스'와이\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y 는 의 편향 추정기 …

21 regression assumptions ridge-regression

2

역변환 방법은 어떻게 작동합니까?

반전 방법은 어떻게 작동합니까? 임의 샘플 가 있다고 가정 합니다. . . ,X1,X2,...,XnX1,X2,...,XnX_1,X_2,...,X_n 밀도 f ( x ; θ ) = 1 인 X nf(x;θ)=1θx(1−θ)θf(x;θ)=1θx(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 가 초과0<x<10<x<10<x<1하므로 cdfFX(x)=x1/θFX(x)=x1/θF_X(x)=x^{1/\theta}on(0,1)(0,1)(0,1). 그런 다음 반전 방법으로의 분포를F − 1 X(u)=uθ로얻습니다. XXXF−1X(u)=uθFX−1(u)=uθF_X^{-1}(u)=u^\theta 그렇게 uθuθu^\theta 의 분포가 XXX ? 이것이 반전 방법이 작동하는 …

21 r distributions inference random-generation inverse-cdf

1

GLM의 유사-포아송이 왜 음이 항의 특수한 경우로 취급되지 않습니까?

과도하게 분산되거나 분산되지 않은 카운트 데이터 세트에 일반 선형 모델을 맞추려고합니다. 여기에 적용되는 두 가지 정규 분포는 Poisson과 Negative Binomial (Negbin)이며 EV 와 분산입니다.μμ\mu VR피= μVarP=μVar_P = \mu VR엔비= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} 이는 사용 R에 장착 가능 glm(..,family=poisson)하고 glm.nb(...), 각각. quasipoisson내 이해에는 동일한 EV와 분산으로 조정 …

21 r generalized-linear-model negative-binomial poisson-regression quasi-likelihood

1

와 사이에 차이점이 있습니까?

상관 계수는 일반적으로 대문자 작성 되지만 때로는 그렇지 않습니다. 와 사이에 실제로 차이가 있는지 궁금합니다 . 은 상관 계수 이외의 다른 것을 의미 할 수 있습니까 ?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr

21 correlation terminology r-squared

4

혼합 데이터가 유클리드 기반 클러스터링 알고리즘에 문제가되는 이유는 무엇입니까?

대부분의 고전적 군집 및 차원 축소 알고리즘 (계층 적 군집, 주요 구성 요소 분석, k- 평균, 자체 구성 맵 ...)은 숫자 데이터를 위해 특별히 설계되었으며 입력 데이터는 유클리드 공간에서 점으로 표시됩니다. 많은 실제 문제에 혼합 된 데이터가 포함되어 있기 때문에 물론 문제입니다. 예를 들어 버스를 연구하는 경우 높이와 길이 및 …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

3

랜덤 데이터의 SVD 결과에서 이상한 상관 관계; 수학적 설명이 있거나 LAPACK 버그입니까?

임의 데이터의 SVD 결과에서 매우 이상한 동작을 관찰했습니다. Matlab과 R 모두에서 재현 할 수 있습니다. LAPACK 라이브러리의 수치 문제처럼 보입니다. 그렇습니까? 제로 평균과 항등 공분산을 갖는 차원 가우스 에서 샘플을 그 립니다 : . 데이터 매트릭스 조립합니다 . (선택적으로 중심 에 둘 수 있으며, 다음에 영향을 미치지 않습니다.) 그런 다음 …

21 pca svd linear-algebra numerics

4

배포가 멀티 모달인지 테스트하는 방법?

내 데이터의 히스토그램을 플롯하면 두 개의 피크가 있습니다. 이것이 잠재적 인 멀티 모달 분포를 의미합니까? dip.testR ( library(diptest))을 실행했으며 출력은 다음과 같습니다. D = 0.0275, p-value = 0.7913 내 데이터에 다중 모달 분포가 있다는 결론을 내릴 수 있습니까? 데이터 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 …

21 r hypothesis-testing distributions self-study histogram

4

비정규 분포에 대한 신뢰 구간을 어떻게 계산합니까?

일부 공통 값에 대해 치우침이 심한 383 개의 표본이 있는데 평균의 95 % CI를 어떻게 계산합니까? 내가 계산 한 CI는 꺼져있는 것처럼 보입니다. 내가 히스토그램을 만들 때 데이터가 곡선처럼 보이지 않기 때문입니다. 그래서 나는 잘 이해하지 못하는 부트 스트랩과 같은 것을 사용해야한다고 생각합니다.

21 confidence-interval mean

3

AIC에서 '매개 변수 수'의 의미

AIC를 계산할 때 I기음= 2 k - 2 l n LAIC=2k−2lnLAIC = 2k - 2 ln L k는 '매개 변수 수'를 의미합니다. 그러나 무엇이 매개 변수로 간주됩니까? 예를 들어 모델에서 와이= a x + by=ax+by = ax + b a와 b는 항상 매개 변수로 계산됩니까? 절편의 가치에 신경 쓰지 않으면 …

21 aic

2

단순 선형 회귀 분석에서 잔차 분산 공식은 어디에서 오는가?

내가 사용하는 텍스트에 따르면 잔차 의 분산 공식 은 다음과 같습니다.ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) 잔차가 관측 값과 적합치 의 차이 이므로 믿기가 어렵습니다 . 차이의 분산을 계산하는 경우 최소한 결과 표현식에 "플러스"가 표시됩니다. 파생을 이해하는 데 도움이 될 것입니다.ithithi^{th}ithithi^{th}ithithi^{th}

21 regression variance residuals

2

다중 선형 회귀 모형을 설명하거나 시각화하는 방법

여러 입력 매개 변수 (예 : 3)를 사용하여 다중 선형 회귀 모델을 데이터에 맞추려고합니다. 에프( x )에프( x )= A x1+ B x2+ C엑스삼+ d또는= ( A B C )티( x1 엑스2 엑스삼) + d(나는)(ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ …

21 regression data-visualization multiple-regression communication

2

최대 우도 추정치의 표준 오차는 무엇을 의미합니까?

저는 수학자 자체 학습 통계이며 특히 언어에 어려움을 겪고 있습니다. 내가 사용하는 책에는 다음과 같은 문제가 있습니다. 임의의 변수 XXX 는 - 과 함께 제공 됩니다. (물론,이 질문을 위해 하나의 매개 변수에 따라 모든 분포를 취할 수 있습니다.) 그런 다음 5 개의 값 , , , , 의 샘플 이 …

21 maximum-likelihood

4

표준화와 학생 화의 차이점은 무엇입니까?

표준화에서 분산이 알려져있는 반면, 학생 화에서는 알려지지 않았으므로 추정 되었습니까? 고맙습니다.

21 standardization

2

k- 평균 군집화가 가우스 혼합 모델링의 한 형태 인 경우 데이터가 정상적이지 않을 때 사용할 수 있습니까?

GMM에 대한 EM 알고리즘과 GMM과 k- 평균 간의 관계에 대한 Bishop을 읽고 있습니다. 이 책에서는 k-means가 GMM의 하드 할당 버전이라고 말합니다. 클러스터링하려는 데이터가 가우시안이 아닌 경우 k- 평균을 사용할 수 없거나 적어도 사용하기에 적합하지 않다는 것을 궁금합니다. 예를 들어, 데이터가 각각 0 또는 1의 값을 가진 8 * 8 픽셀로 …

21 clustering data-mining k-means gaussian-mixture