통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
미시적 또는 거시적 평가 방법에 따라 결정해야합니까?
동일한 데이터 세트로 다른 이진 분류 알고리즘에서 10 배 교차 검증을 실행했으며 마이크로 및 매크로 평균 결과를 모두 받았습니다. 이것이 다중 레이블 분류 문제라는 점을 언급해야합니다. 필자의 경우, 참 부정과 참 긍정적 가중치는 동일하게 가중됩니다. 즉, 참 긍정을 정확하게 예측하는 것이 참 긍정을 정확하게 예측하는 것과 마찬가지로 중요합니다. 미세 평균 …

2
능선 회귀의 가정은 무엇이고 어떻게 테스트합니까?
다중 회귀 분석을위한 표준 모델 고려 때문에 정상, homoscedasticity 모든 홀드 오류를 uncorrelatedness.와이= Xβ+ ε와이=엑스β+εY=X\beta+\varepsilonε ∼ N( 0 , σ2나는엔)ε∼엔(0,σ2나는엔)\varepsilon \sim \mathcal N(0, \sigma^2I_n) 대각선의 모든 요소에 동일한 소량을 추가하여 능선 회귀를 수행한다고 가정합니다 .엑스엑스X βr i d g e= [ X'엑스+ k I]− 1엑스'와이β아르 자형나는디지이자형=[엑스'엑스+케이나는]−1엑스'와이\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y 는 의 편향 추정기 …

2
역변환 방법은 어떻게 작동합니까?
반전 방법은 어떻게 작동합니까? 임의 샘플 가 있다고 가정 합니다. . . ,X1,X2,...,XnX1,X2,...,XnX_1,X_2,...,X_n 밀도 f ( x ; θ ) = 1 인 X nf(x;θ)=1θx(1−θ)θf(x;θ)=1θx(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 가 초과0&lt;x&lt;10&lt;x&lt;10<x<1하므로 cdfFX(x)=x1/θFX(x)=x1/θF_X(x)=x^{1/\theta}on(0,1)(0,1)(0,1). 그런 다음 반전 방법으로의 분포를F − 1 X(u)=uθ로얻습니다. XXXF−1X(u)=uθFX−1(u)=uθF_X^{-1}(u)=u^\theta 그렇게 uθuθu^\theta 의 분포가 XXX ? 이것이 반전 방법이 작동하는 …

1
GLM의 유사-포아송이 왜 음이 항의 특수한 경우로 취급되지 않습니까?
과도하게 분산되거나 분산되지 않은 카운트 데이터 세트에 일반 선형 모델을 맞추려고합니다. 여기에 적용되는 두 가지 정규 분포는 Poisson과 Negative Binomial (Negbin)이며 EV 와 분산입니다.μμ\mu VR피= μVarP=μVar_P = \mu VR엔비= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} 이는 사용 R에 장착 가능 glm(..,family=poisson)하고 glm.nb(...), 각각. quasipoisson내 이해에는 동일한 EV와 분산으로 조정 …


4
혼합 데이터가 유클리드 기반 클러스터링 알고리즘에 문제가되는 이유는 무엇입니까?
대부분의 고전적 군집 및 차원 축소 알고리즘 (계층 적 군집, 주요 구성 요소 분석, k- 평균, 자체 구성 맵 ...)은 숫자 데이터를 위해 특별히 설계되었으며 입력 데이터는 유클리드 공간에서 점으로 표시됩니다. 많은 실제 문제에 혼합 된 데이터가 포함되어 있기 때문에 물론 문제입니다. 예를 들어 버스를 연구하는 경우 높이와 길이 및 …

3
랜덤 데이터의 SVD 결과에서 이상한 상관 관계; 수학적 설명이 있거나 LAPACK 버그입니까?
임의 데이터의 SVD 결과에서 매우 이상한 동작을 관찰했습니다. Matlab과 R 모두에서 재현 할 수 있습니다. LAPACK 라이브러리의 수치 문제처럼 보입니다. 그렇습니까? 제로 평균과 항등 공분산을 갖는 차원 가우스 에서 샘플을 그 립니다 : . 데이터 매트릭스 조립합니다 . (선택적으로 중심 에 둘 수 있으며, 다음에 영향을 미치지 않습니다.) 그런 다음 …

4
배포가 멀티 모달인지 테스트하는 방법?
내 데이터의 히스토그램을 플롯하면 두 개의 피크가 있습니다. 이것이 잠재적 인 멀티 모달 분포를 의미합니까? dip.testR ( library(diptest))을 실행했으며 출력은 다음과 같습니다. D = 0.0275, p-value = 0.7913 내 데이터에 다중 모달 분포가 있다는 결론을 내릴 수 있습니까? 데이터 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 …

4
비정규 분포에 대한 신뢰 구간을 어떻게 계산합니까?
일부 공통 값에 대해 치우침이 심한 383 개의 표본이 있는데 평균의 95 % CI를 어떻게 계산합니까? 내가 계산 한 CI는 꺼져있는 것처럼 보입니다. 내가 히스토그램을 만들 때 데이터가 곡선처럼 보이지 않기 때문입니다. 그래서 나는 잘 이해하지 못하는 부트 스트랩과 같은 것을 사용해야한다고 생각합니다.

3
AIC에서 '매개 변수 수'의 의미
AIC를 계산할 때 I기음= 2 k - 2 l n LAIC=2k−2lnLAIC = 2k - 2 ln L k는 '매개 변수 수'를 의미합니다. 그러나 무엇이 매개 변수로 간주됩니까? 예를 들어 모델에서 와이= a x + by=ax+by = ax + b a와 b는 항상 매개 변수로 계산됩니까? 절편의 가치에 신경 쓰지 않으면 …
21 aic 

2
단순 선형 회귀 분석에서 잔차 분산 공식은 어디에서 오는가?
내가 사용하는 텍스트에 따르면 잔차 의 분산 공식 은 다음과 같습니다.ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) 잔차가 관측 값과 적합치 의 차이 이므로 믿기가 어렵습니다 . 차이의 분산을 계산하는 경우 최소한 결과 표현식에 "플러스"가 표시됩니다. 파생을 이해하는 데 도움이 될 것입니다.ithithi^{th}ithithi^{th}ithithi^{th}


2
최대 우도 추정치의 표준 오차는 무엇을 의미합니까?
저는 수학자 자체 학습 통계이며 특히 언어에 어려움을 겪고 있습니다. 내가 사용하는 책에는 다음과 같은 문제가 있습니다. 임의의 변수 XXX 는 - 과 함께 제공 됩니다. (물론,이 질문을 위해 하나의 매개 변수에 따라 모든 분포를 취할 수 있습니다.) 그런 다음 5 개의 값 , , , , 의 샘플 이 …


2
k- 평균 군집화가 가우스 혼합 모델링의 한 형태 인 경우 데이터가 정상적이지 않을 때 사용할 수 있습니까?
GMM에 대한 EM 알고리즘과 GMM과 k- 평균 간의 관계에 대한 Bishop을 읽고 있습니다. 이 책에서는 k-means가 GMM의 하드 할당 버전이라고 말합니다. 클러스터링하려는 데이터가 가우시안이 아닌 경우 k- 평균을 사용할 수 없거나 적어도 사용하기에 적합하지 않다는 것을 궁금합니다. 예를 들어, 데이터가 각각 0 또는 1의 값을 가진 8 * 8 픽셀로 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.