통계 및 빅 데이터

4

우선, 저는 통계학자가 아닙니다. 그러나 저는 박사 학위에 대한 통계 네트워크 분석을하고 있습니다. 네트워크 분석의 일환으로 네트워크 정도의 보완 누적 분포 함수 (CCDF)를 플로팅했습니다. 내가 찾은 것은 기존의 네트워크 배포 (예 : WWW)와 달리 배포는 로그 정규 분포에 가장 잘 맞는다는 것입니다. 나는 그것을 권력 법칙에 맞추고 Clauset et al의 …

22 curve-fitting networks lognormal power-law

2

혼합 효과 모델을 어떻게 비교하고 검증해야합니까?

(선형) 혼합 효과 모델은 일반적으로 서로 어떻게 비교됩니까? 가능성 비율 테스트를 사용할 수 있지만 한 모델이 다른 모델의 '서브셋'이 아닌 경우 작동하지 않습니다. 모델 df의 추정은 항상 간단합니까? 고정 효과 수 + 분산 성분 수 추정? 랜덤 효과 추정값을 무시합니까? 유효성 검사는 어떻습니까? 내 첫 번째 생각은 교차 검증이지만 데이터 …

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

2

두 포아송 랜덤 변수의 비율 분포는 무엇입니까?

임의 변수에 관한 질문이 있습니다. 두 개의 랜덤 변수 와 가 있다고 가정 해 봅시다 . 의 말을하자 포아송 매개 변수와 함께 배포되는 , 및 포아송 매개 변수와 함께 배포되는 .XXXYYYXXXλ1λ1\lambda_1YYYλ2λ2\lambda_2 에서 골절을 구축하고 이를 임의의 변수 , 이것이 어떻게 분포되고 평균은 무엇입니까? 그것은이다 ?X/YX/YX/YZZZλ1/λ2λ1/λ2\lambda_1/\lambda_2

22 random-variable poisson-distribution

4

변수 사이의 상호 작용을 고려할 때 선형 회귀 분석과 분산 분석이 다른 값을 제공하는 이유는 무엇 입니까?

회귀 모델을 사용하여 하나의 시계열 데이터 (복제 제외)를 맞추려고했습니다. 데이터는 다음과 같습니다. > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 …

22 r regression statistical-significance anova p-value

2

다양한 조건에서 두 숫자 변수 간의 그래프 연결에 대한 팁이있는 우수한 온라인 리소스

문맥: 그 동안 나는 두 숫자 변수 사이의 연관성을 효과적으로 구성하는 방법에 대한 일련의 휴리스틱을 얻었습니다. 데이터를 다루는 대부분의 사람들이 비슷한 규칙을 가지고 있다고 생각합니다. 이러한 규칙의 예는 다음과 같습니다. 변수 중 하나가 양으로 치우친 경우 해당 축을 로그 스케일로 플로팅하는 것을 고려하십시오. 많은 데이터 포인트가있는 경우 (예 : n> …

22 data-visualization correlation teaching rule-of-thumb scatterplot

1

주어진 데이터 세트에 대해 Pearson과 Spearman의 상관 관계에 큰 상관 계수 차이를 유발할 수있는 것은 무엇입니까?

두 변수 사이의 피어슨 계수는 상당히 높습니다 (r = .65). 그러나 변수 값의 순위를 매기고 Spearman의 상관 관계를 실행하면 효율적인 값이 훨씬 낮아집니다 (r = .30). 이것에 대한 해석은 무엇입니까?

22 correlation spearman-rho

2

모델 선택 베이지안 또는 교차 검증에 가장 적합한 방법은 무엇입니까?

다양한 모델 또는 포함 할 기능의 수를 선택하려고 할 때 예측이라고하면 두 가지 접근법을 생각할 수 있습니다. 데이터를 학습 및 테스트 세트로 분할하십시오. 더 나은 방법은 부트 스트랩 또는 k- 폴드 교차 검증을 사용하는 것입니다. 매번 훈련 세트를 훈련시키고 테스트 세트에 대한 오차를 계산하십시오. 테스트 오류 대 매개 변수 수를 …

22 bayesian model-selection cross-validation feature-selection

3

다변량 시계열 예측을위한 벡터 회귀 지원

지원 벡터 회귀를 사용하여 시계열 예측을 시도한 사람이 있습니까? 지원 벡터 시스템을 이해하고 지원 벡터 회귀를 부분적으로 이해하지만 시계열, 특히 다변량 시계열을 모델링하는 데 어떻게 사용할 수 있는지 이해하지 못합니다. 몇 가지 논문을 읽으려고했지만 너무 높은 수준입니다. 누구나 다변량 시계열과 관련하여 작동 방식을 평온하게 설명 할 수 있습니까? 편집 : …

22 time-series machine-learning svm

1

두꺼운 꼬리 분포와 뚱뚱한 꼬리 분포의 차이점

나는 두꺼운 꼬리 = 뚱뚱한 꼬리라고 생각했지만 읽은 일부 기사는 그렇지 않다는 느낌을주었습니다. 그들 중 하나는 다음과 같이 말합니다. 두꺼운 꼬리는 분포 j가 정수 j에 대해 무한 j 번째 모멘트를 가짐을 의미합니다. 또한 파레토 (Pareto) df의 매력에 대한 팟 영역의 모든 df는 꼬리가 무겁다. 밀도가 중앙 피크가 높고 꼬리가 길면 …

22 distributions

4

최대 가능성을 사용하여 다변량 정규 모형을 피팅 할 때 공분산 행렬의 속성을 보장하는 방법은 무엇입니까?

다음 모델이 있다고 가정하십시오. yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i 여기서 yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i 는 설명 변수로 구성된 벡터이고, θθ\theta 는 비선형 함수 fff 및 의 매개 변수입니다 εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma). 여기서 ΣΣ\Sigma 자연스럽게 K×KK×KK\times K 행렬입니다. 목표는 일반적으로 θθ\theta 및 를 추정하는 것입니다 ΣΣ\Sigma. 확실한 선택은 최대 가능성 방법입니다. 이 모델에 대한 로그 우도 …

22 maximum-likelihood optimization covariance

2

귀무 가설이 항상 가설 검정의 범위가 아닌 포인트 값인 이유는 무엇입니까?

이것은 내가 묻는 또 다른 질문 과 관련이 있습니다. 내가 가진 문제는 가설 검정을 수행 할 때 대립 가설이 범위 일 때 귀무 가설이 여전히 포인트 값이라는 것입니다. 예를 들어, 상관 계수가 0.5보다 큰지 여부를 테스트 할 때 귀무 가설은 "상관 <= 0.5"대신 "상관 = 0.5"입니다. 왜 그런가요? (또는 내가 …

22 hypothesis-testing

1

R 함수 'princomp'와 'prcomp'가 다른 고유 값을 제공하는 이유는 무엇입니까?

decathlon 데이터 셋 {FactoMineR}을 사용하여이를 재현 할 수 있습니다. 문제는 계산 된 고유 값이 공분산 행렬의 고유 값과 다른 이유입니다. 다음을 사용하는 고유 값은 다음과 같습니다 princomp. > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 …

22 r pca

4

순위를 지정할 수 있도록 여러 변수에서 품질 지수 생성

네 개의 숫자 변수가 있습니다. 그들 모두는 토양 품질의 척도입니다. 변수가 높을수록 품질이 높아집니다. 그들 모두의 범위는 다릅니다 : 1에서 10까지의 Var1 1000에서 2000 사이의 Var2 150에서 300 사이의 Var3 0에서 5까지의 Var4 4 가지 변수를 단일 토양 품질 점수로 결합하여 순서를 성공적으로 평가해야합니다. 내 생각은 매우 간단합니다. 네 가지 …

22 ranking valuation

5

비정규 분포 DV에 대한 분산 분석 결과를 신뢰할 수 있습니까?

반복 측정 ANOVA로 실험을 분석했습니다. 분산 분석은 개체 간 요인이 2 개이고 (N = 189) 내에 3이있는 3x2x2x2x3입니다. 오류율은 종속 변수입니다. 오차율 분포는 3.64의 왜곡과 첨도는 15.75입니다. 스큐 및 첨도는 오류율의 90 %가 0이라는 결과입니다. 여기서 정규성 테스트에서 이전 스레드 중 일부를 읽는 것은 약간 혼란 스럽습니다. 정규 분포가 아닌 …

22 anova normality-assumption

6

그래프 이론-분석 및 시각화

나는 그 주제가 CrossValidated 관심사에 들어가는 지 확신 할 수 없다. 말해 줄게 그래프 ( 그래프 이론에서 ) 즉 , 공부해야합니다 . 연결되어있는 특정 수의 점이 있습니다. 모든 점과 각 점이 의존하는 점이있는 테이블이 있습니다. (또한 관련이있는 또 다른 테이블이 있습니다) 내 질문은 : 쉽게 연구하기 좋은 소프트웨어 (또는 R …

22 r data-visualization graph-theory