통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
로그 정규 분포와 전력 법칙 분포 (네트워크 등급 분포)의 차이 해석
우선, 저는 통계학자가 아닙니다. 그러나 저는 박사 학위에 대한 통계 네트워크 분석을하고 있습니다. 네트워크 분석의 일환으로 네트워크 정도의 보완 누적 분포 함수 (CCDF)를 플로팅했습니다. 내가 찾은 것은 기존의 네트워크 배포 (예 : WWW)와 달리 배포는 로그 정규 분포에 가장 잘 맞는다는 것입니다. 나는 그것을 권력 법칙에 맞추고 Clauset et al의 …

2
혼합 효과 모델을 어떻게 비교하고 검증해야합니까?
(선형) 혼합 효과 모델은 일반적으로 서로 어떻게 비교됩니까? 가능성 비율 테스트를 사용할 수 있지만 한 모델이 다른 모델의 '서브셋'이 아닌 경우 작동하지 않습니다. 모델 df의 추정은 항상 간단합니까? 고정 효과 수 + 분산 성분 수 추정? 랜덤 효과 추정값을 무시합니까? 유효성 검사는 어떻습니까? 내 첫 번째 생각은 교차 검증이지만 데이터 …

2
두 포아송 랜덤 변수의 비율 분포는 무엇입니까?
임의 변수에 관한 질문이 있습니다. 두 개의 랜덤 변수 와 가 있다고 가정 해 봅시다 . 의 말을하자 포아송 매개 변수와 함께 배포되는 , 및 포아송 매개 변수와 함께 배포되는 .XXXYYYXXXλ1λ1\lambda_1YYYλ2λ2\lambda_2 에서 골절을 구축하고 이를 임의의 변수 , 이것이 어떻게 분포되고 평균은 무엇입니까? 그것은이다 ?X/YX/YX/YZZZλ1/λ2λ1/λ2\lambda_1/\lambda_2

4
변수 사이의 상호 작용을 고려할 때 선형 회귀 분석과 분산 분석이 다른 값을 제공하는 이유는 무엇 입니까?
회귀 모델을 사용하여 하나의 시계열 데이터 (복제 제외)를 맞추려고했습니다. 데이터는 다음과 같습니다. > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 …

2
다양한 조건에서 두 숫자 변수 간의 그래프 연결에 대한 팁이있는 우수한 온라인 리소스
문맥: 그 동안 나는 두 숫자 변수 사이의 연관성을 효과적으로 구성하는 방법에 대한 일련의 휴리스틱을 얻었습니다. 데이터를 다루는 대부분의 사람들이 비슷한 규칙을 가지고 있다고 생각합니다. 이러한 규칙의 예는 다음과 같습니다. 변수 중 하나가 양으로 치우친 경우 해당 축을 로그 스케일로 플로팅하는 것을 고려하십시오. 많은 데이터 포인트가있는 경우 (예 : n> …


2
모델 선택 베이지안 또는 교차 검증에 가장 적합한 방법은 무엇입니까?
다양한 모델 또는 포함 할 기능의 수를 선택하려고 할 때 예측이라고하면 두 가지 접근법을 생각할 수 있습니다. 데이터를 학습 및 테스트 세트로 분할하십시오. 더 나은 방법은 부트 스트랩 또는 k- 폴드 교차 검증을 사용하는 것입니다. 매번 훈련 세트를 훈련시키고 테스트 세트에 대한 오차를 계산하십시오. 테스트 오류 대 매개 변수 수를 …

3
다변량 시계열 예측을위한 벡터 회귀 지원
지원 벡터 회귀를 사용하여 시계열 예측을 시도한 사람이 있습니까? 지원 벡터 시스템을 이해하고 지원 벡터 회귀를 부분적으로 이해하지만 시계열, 특히 다변량 시계열을 모델링하는 데 어떻게 사용할 수 있는지 이해하지 못합니다. 몇 가지 논문을 읽으려고했지만 너무 높은 수준입니다. 누구나 다변량 시계열과 관련하여 작동 방식을 평온하게 설명 할 수 있습니까? 편집 : …

1
두꺼운 꼬리 분포와 뚱뚱한 꼬리 분포의 차이점
나는 두꺼운 꼬리 = 뚱뚱한 꼬리라고 생각했지만 읽은 일부 기사는 그렇지 않다는 느낌을주었습니다. 그들 중 하나는 다음과 같이 말합니다. 두꺼운 꼬리는 분포 j가 정수 j에 대해 무한 j 번째 모멘트를 가짐을 의미합니다. 또한 파레토 (Pareto) df의 매력에 대한 팟 영역의 모든 df는 꼬리가 무겁다. 밀도가 중앙 피크가 높고 꼬리가 길면 …

4
최대 가능성을 사용하여 다변량 정규 모형을 피팅 할 때 공분산 행렬의 속성을 보장하는 방법은 무엇입니까?
다음 모델이 있다고 가정하십시오. yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i 여기서 yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i 는 설명 변수로 구성된 벡터이고, θθ\theta 는 비선형 함수 fff 및 의 매개 변수입니다 εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma). 여기서 ΣΣ\Sigma 자연스럽게 K×KK×KK\times K 행렬입니다. 목표는 일반적으로 θθ\theta 및 를 추정하는 것입니다 ΣΣ\Sigma. 확실한 선택은 최대 가능성 방법입니다. 이 모델에 대한 로그 우도 …

2
귀무 가설이 항상 가설 검정의 범위가 아닌 포인트 값인 이유는 무엇입니까?
이것은 내가 묻는 또 다른 질문 과 관련이 있습니다. 내가 가진 문제는 가설 검정을 수행 할 때 대립 가설이 범위 일 때 귀무 가설이 여전히 포인트 값이라는 것입니다. 예를 들어, 상관 계수가 0.5보다 큰지 여부를 테스트 할 때 귀무 가설은 "상관 <= 0.5"대신 "상관 = 0.5"입니다. 왜 그런가요? (또는 내가 …

1
R 함수 'princomp'와 'prcomp'가 다른 고유 값을 제공하는 이유는 무엇입니까?
decathlon 데이터 셋 {FactoMineR}을 사용하여이를 재현 할 수 있습니다. 문제는 계산 된 고유 값이 공분산 행렬의 고유 값과 다른 이유입니다. 다음을 사용하는 고유 값은 다음과 같습니다 princomp. > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 …
22 r  pca 

4
순위를 지정할 수 있도록 여러 변수에서 품질 지수 생성
네 개의 숫자 변수가 있습니다. 그들 모두는 토양 품질의 척도입니다. 변수가 높을수록 품질이 높아집니다. 그들 모두의 범위는 다릅니다 : 1에서 10까지의 Var1 1000에서 2000 사이의 Var2 150에서 300 사이의 Var3 0에서 5까지의 Var4 4 가지 변수를 단일 토양 품질 점수로 결합하여 순서를 성공적으로 평가해야합니다. 내 생각은 매우 간단합니다. 네 가지 …

5
비정규 분포 DV에 대한 분산 분석 결과를 신뢰할 수 있습니까?
반복 측정 ANOVA로 실험을 분석했습니다. 분산 분석은 개체 간 요인이 2 개이고 (N = 189) 내에 3이있는 3x2x2x2x3입니다. 오류율은 종속 변수입니다. 오차율 분포는 3.64의 왜곡과 첨도는 15.75입니다. 스큐 및 첨도는 오류율의 90 %가 0이라는 결과입니다. 여기서 정규성 테스트에서 이전 스레드 중 일부를 읽는 것은 약간 혼란 스럽습니다. 정규 분포가 아닌 …

6
그래프 이론-분석 및 시각화
나는 그 주제가 CrossValidated 관심사에 들어가는 지 확신 할 수 없다. 말해 줄게 그래프 ( 그래프 이론에서 ) 즉 , 공부해야합니다 . 연결되어있는 특정 수의 점이 있습니다. 모든 점과 각 점이 의존하는 점이있는 테이블이 있습니다. (또한 관련이있는 또 다른 테이블이 있습니다) 내 질문은 : 쉽게 연구하기 좋은 소프트웨어 (또는 R …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.