통계 및 빅 데이터

1

자기 상관 잔차 패턴은 적절한 상관 구조를 가진 모델에서도 유지되고 최상의 모델을 선택하는 방법은 무엇입니까?

문맥 이 질문은 R을 사용하지만 일반적인 통계 문제에 관한 것입니다. 필자는 유충 개체군이 8 년 동안 1 년에 한 번 12 개 사이트에서 샘플링 된 시간에 따른 나방 개체군 성장률에 대한 사망률 (질병 및 기생충으로 인한 사망률)의 영향을 분석하고 있습니다. 인구 증가율 데이터는 시간이 지남에 따라 명확하지만 불규칙적 인 주기적 …

17 model-selection autocorrelation residuals panel-data spatio-temporal

3

5 개의 숫자 요약 만 알려진 두 분포에 대한 통계 검정

5 숫자 요약 (최소, 1 사 분위, 중간, 3 사 분위, 최대)과 표본 크기 만 알려진 두 개의 분포가 있습니다. 여기서 질문 과 달리 모든 데이터 포인트를 사용할 수있는 것은 아닙니다. 비모수 통계 검정으로 두 분포의 기본 분포가 다른지 확인할 수 있습니까? 감사!

17 distributions nonparametric

1

R의 기능 "효과"는 무엇을합니까?

effects ()R 의 도움말 파일에 있는 설명을 이해하지 못합니다 . lm또는 aov에 의해 피팅 된 선형 모델의 경우, 효과는 피팅 프로세스 동안 QR 분해에 의해 생성 된 연속 직교 서브 공간에 데이터를 투영하여 얻은 상관되지 않은 단일 자유도 값입니다. 아무도 이것이 무엇을 의미하는지 설명 할 수 있습니까? QR 분해의 Q- …

17 r regression

2

회귀의 질적 변수 코딩은 "단일성"으로 이어집니다

"quality"라는 독립 변수가 있습니다. 이 변수에는 3 가지 반응 방식 (나쁜 품질, 중간 품질, 고품질)이 있습니다. 이 독립 변수를 여러 선형 회귀 분석에 도입하고 싶습니다. 이진 독립 변수 (더미 변수, 코딩 가능 0/ 1)가 있으면 다중 선형 회귀 모델에 쉽게 도입 할 수 있습니다. 그러나 3 가지 양식의 응답 으로이 …

17 r regression categorical-data multicollinearity categorical-encoding

1

단일 값 분해 (SVD)를 계산하는 효율적인 알고리즘은 무엇입니까?

주요 구성 요소 분석 에 관한 Wikipedia 기사에 따르면 행렬 X T X 를 형성하지 않고 의 SVD를 계산하기위한 효율적인 알고리즘이 존재하므로 SVD를 계산하는 것은 이제 소수의 구성 요소 만 필요하지 않는 한 데이터 매트릭스에서 주요 구성 요소 분석을 계산하는 표준 방법입니다.XXXXTXXTXX^TX 기사에서 말하는 효율적인 알고리즘이 무엇인지 말해 줄 수 …

17 pca algorithms svd numerics

1

가능성 원칙에 대한 질문

나는 현재 가능성 원칙을 이해하려고 노력하고 있으며 솔직히 이해하지 못한다. 따라서 나는 기본적인 질문 일지라도 모든 질문을 목록으로 작성합니다. 이 원칙의 맥락에서 "모든 정보"문구는 정확히 무엇을 의미합니까? ( 샘플의 모든 정보에서와 같이 가능성 함수에 포함되어 있습니다.) 이 원리는 라는 매우 확실한 사실과 연결되어 있습니까? 원칙적으로 "우도"는 와 같은 것 입니까?p(x|y)∝p(y|x)p(x)p(x|y)∝p(y|x)p(x)p(x|y)\propto …

17 bayesian likelihood likelihood-principle

2

데이터를 계산하기 위해 불연속 분포를 맞추는 방법은 무엇입니까?

다음과 같은 카운트 데이터 히스토그램이 있습니다. 그리고 나는 이것에 개별 분포를 적용하고 싶습니다. 어떻게해야할지 모르겠습니다. 먼저 히스토그램에 불연속 분포와 같은 불연속 분포를 중첩하여 이산 분포의 모수를 구한 다음 Kolmogorov–Smirnov 검정을 실행하여 p- 값을 확인해야합니까? 이 방법이 올바른지 확실하지 않습니다. 이와 같은 문제를 해결하는 일반적인 방법이 있습니까? 카운트 데이터의 빈도 표입니다. …

17 r poisson-distribution discrete-data computational-statistics negative-binomial

3

3 개의 변수에 대한 피어슨 상관의 유추

나는 세 변수의 "상관"이 무엇인지에 관심이 있으며, 만약 그렇다면, 이것이 무엇일까요? 피어슨 곱 모멘트 상관 계수 E{(X−μX)(Y−μY)}Var(X)Var(Y)−−−−−−−−−−−−√E{(X−μX)(Y−μY)}Var(X)Var(Y)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)\}}{\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)}} 이제 3 가지 변수에 대한 질문 : E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)−−−−−−−−−−−−−−−−−−√E{(X−μX)(Y−μY)(Z−μZ)}Var(X)Var(Y)Var(Z)\frac{\mathrm{E}\{(X-\mu_X)(Y-\mu_Y)(Z-\mu_Z)\}} {\sqrt{\mathrm{Var}(X)\mathrm{Var}(Y)\mathrm{Var}(Z)}} 아무것도? R에서는 해석 가능한 것으로 보입니다. > a <- rnorm(100); b <- rnorm(100); c <- rnorm(100) > mean((a-mean(a)) * (b-mean(b)) * (c-mean(c))) / (sd(a) …

17 correlation pearson-r

1

RBF SVM의 효과를 이해하는 방법

SVM의 RBF 커널이 무엇을 이해하는지 어떻게 알 수 있습니까? 나는 수학을 이해한다는 것을 의미하지만이 커널이 유용 할 때 느낌을 얻는 방법이 있습니까? RBF에 벡터 거리가 포함되어 있기 때문에 kNN의 결과가 SVM / RBF와 관련이 있습니까? 다항식 커널에 대한 느낌을 얻는 방법이 있습니까? 치수가 높을수록 더 빠를 수 있습니다. 그러나 가능한 …

17 svm kernel-trick

2

모델의 AIC와 로그 변환 된 버전 비교

내 질문의 본질은 다음과 같습니다. 하자 평균과 다변량 정규 확률 변수 일 및 공분산 행렬 . 하자 , 즉 Z_i = \ 로그 (Y_i), I \에서 \ {1 \ ldots 단락을 n \} . 어떻게 모델 적합의 AIC는의 관찰 실현에 비교합니까 Y 의 관찰 실현에 모델에 맞는 대 Z ? …

17 data-transformation aic likelihood

1

Naive Bayes는 언제 SVM보다 성능이 좋습니까?

필자가보고있는 작은 텍스트 분류 문제에서 Naive Bayes는 SVM 이상의 성능을 보였으며 매우 혼란 스러웠습니다. 하나의 알고리즘이 다른 알고리즘의 승리를 결정하는 요인이 궁금합니다. SVM에서 Naive Bayes를 사용할 필요가없는 상황이 있습니까? 누군가 이것에 빛을 비출 수 있습니까?

17 machine-learning classification svm naive-bayes

1

다변량 표준 정규 분포와 가우스 copula의 차이점

다변량 표준 정규 분포와 Gaussian copula의 차이점은 밀도 함수를 볼 때 나와 동일하게 보이기 때문에 궁금합니다. 내 문제는 Gaussian copula가 도입되거나 Gaussian copula가 생성하는 이점 또는 Gaussian copula가 다변량 표준 정규 함수 자체 일 때 그 우수성이 무엇인지에 대한 이유입니다. 또한 copula에서 확률 적분 변환의 개념은 무엇입니까? 우리는 copula가 균일 …

17 normal-distribution copula

2

에 조건부로 OLS 추정기

내가 아는 그 이것은 내가 분산을 계산 할 때 가지고 얼마나 멀리입니다 :β0^=y¯−β1^x¯β0^=y¯−β1^x¯\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= Var(\bar{y} - \hat{\beta_1}\bar{x}) \\ &= Var((-\bar{x})\hat{\beta_1}+\bar{y}) \\ &= Var((-\bar{x})\hat{\beta_1})+Var(\bar{y}) \\ &= (-\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= (\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= \frac{\sigma^2 (\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 그러나 그것은 내가 가진 한 …

17 regression self-study

4

베이지안과 잦은 포인트 추정기는 어떤 조건에서 일치합니까?

사전 설정이 평평하면 ML (자주 주의자-최대 우도) 및 MAP (Bayesian-최대 사후 계산) 추정기가 일치합니다. 그러나 더 일반적으로, 나는 일부 손실 함수의 최적화 프로그램으로 도출 된 포인트 추정기에 대해 이야기하고 있습니다. 즉 x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) …

17 bayesian estimation loss-functions frequentist decision-theory

4

통계의 수학적 기초에 대한 좋은 자료 (온라인 또는 서적)

내 질문을하기 전에, 내가 찾고있는 리소스 유형에 대해 더 잘 이해할 수 있도록 통계에 대해 알고있는 것에 대해 약간의 배경 지식을 드리겠습니다. 저는 심리학 대학원생이며, 거의 매일 통계를 사용합니다. 지금까지는 일반적으로 일반적인 구조 방정식 모델링 프레임 워크에서 구현되는 매우 광범위한 기술에 익숙합니다. 그러나 내 훈련은 이러한 기술을 사용하고 결과를 해석하는 …

17 mathematical-statistics references