통계 및 빅 데이터

5

2D 물리적 시뮬레이션을 진행 중이며 여러 시점에서 제 시간에 데이터를 수집하고 있습니다. 이 불연속 점은 세로선을 따라 있으며 축 방향으로 여러 줄이 있습니다. 이것은 데이터 셋을 효과적으로 4D로 만듭니다. 예를 들어 (X, Y) 좌표에 수집 지점이 있다고 가정합니다. (0,0), (1,0), (2,0) (0,1), (1,1), (2,1) (0,2), (1,2), (2,2) 그리고 각 지점에서 …

19 time-series data-visualization spatio-temporal

4

쌍별 경쟁 데이터를 기반으로 등급 및 순위를 시작하는 방법은 무엇입니까?

한 쌍의 방식으로 만 상호 작용 / 경쟁하는 그룹 (즉, 체스 의 ELO 등급 시스템 과 같은 시스템)에서 개인을 평가하고 순위를 매기는 방법에 대해 흥미가 있습니다 . 거기에 갈 방법이나 더 정확하고 진보 된 방법이 있습니까? 쉽게 구현할 수있는 R 패키지가 있습니까? 경기 / 게임 결과뿐만 아니라 보조 정보를 사용할 …

19 ranking rating bradley-terry-model elo

3

계층 적 군집화에서 유클리드 거리 측정에서 정규화하는 이유

거리 측정 값이 유클리드 거리 인 계층 적 군집에서는 데이터를 가장 먼저 정규화하거나 표준화하여 변동이 가장 큰 공변량이 군집을 유발하지 않도록해야합니다. 왜 이런거야? 이 사실이 바람직하지 않습니까?

19 clustering normalization

3

미리 지정된 상관 관계 행렬을 사용하여 데이터를 생성하려면 어떻게해야합니까?

평균 = , 분산 = , 상관 계수 = 상관 랜덤 시퀀스를 생성하려고합니다 . 아래 코드에서 & 를 표준 편차로 사용하고 & 를 수단으로 사용합니다.1 0.80001110.80.80.8s1s2m1m2 p = 0.8 u = randn(1, n) v = randn(1, n) x = s1 * u + m1 y = s2 * (p * …

19 correlation matlab random-generation correlation-matrix

3

로그 정규 데이터 세트의 평균에 대한 신뢰 구간을 어떻게 계산합니까?

여러 곳에서 각 샘플의 로그를 취하여 데이터 세트를 정규 분포의 것으로 변환하고 변환 된 데이터의 신뢰 구간을 계산하고 역 연산을 사용하여 신뢰 구간을 다시 변환 할 수 있다고 들었습니다. (예 : 에 대해 하한과 상한의 거듭 제곱으로 10을 올립니다 .)로그10로그10\log_{10} 그러나이 방법은 그 자체로는 의미가 없습니다.10평균( 로그10( X) )≠ 평균( …

19 confidence-interval mean lognormal

3

순간 생성 함수 증명으로 확률 분포를 고유하게 결정

Wackerly 등의 텍스트 는 이 정리 " 와 는 각각 랜덤 변수 X와 Y의 모멘트 생성 함수를 나타냅니다. 모멘트 생성 함수가 존재하고 "t의 모든 값에 대해 X와 Y는 동일한 확률 분포를 갖습니다." 텍스트의 범위를 넘어서는 증거가 없습니다. Scheaffer Young은 증거가없는 동일한 정리 를 가지고 있습니다. Casella의 사본이 없지만 Google 도서 …

19 mathematical-statistics references moments proof mgf

2

베이지안 모델에서 교차 검증의 안정성

k-fold cross-validation (k = 5)을 사용하여 JAGS에 Bayesian HLM을 피팅하고 있습니다. 매개 변수 추정치가 모든 접힘에 걸쳐 안정적 인지 알고 싶습니다 . 가장 좋은 방법은 무엇입니까?ββ\beta 한 가지 아이디어는 의 사후 차이를 찾고 0이 차이의 95 % CI에 있는지 확인하는 것입니다. 즉, 의 95 % 간격에서 0입니다 (그리고 모든 접기 …

19 bayesian cross-validation

3

통계에서 함수의 중요성은 무엇입니까 ?

미적분학 클래스에서 함수 또는 "bell curve"가 발생하여 통계에 자주 적용된다고 들었습니다.이자형− x2e−x2e^{-x^2} 호기심에서 나는 묻고 싶다 : 함수 가 통계에서 정말로 중요한가? 그렇다면 의 장점은 무엇이며 어떤 응용 프로그램이 있습니까?이자형− x2e−x2e^{-x^2}이자형− x2e−x2e^{-x^2} 인터넷에서 기능에 대한 많은 정보를 찾을 수는 없었지만 조사를 한 결과 일반적인 종 곡선과 정규 분포 라는 링크가 …

19 normal-distribution

3

ARIMA 모델 해석

ARIMA 모델에 대한 질문이 있습니다. 예측하고 싶은 시계열 YtYtY_t 가 있고 ARIMA(2,2)ARIMA(2,2)\text{ARIMA}(2,2) 모델이 예측 운동을 수행하는 좋은 방법 인 것 같습니다. ΔYt=α1ΔYt−1+α2ΔYt−2+νt+θ1νt−1+θ2νt−2ΔYt=α1ΔYt−1+α2ΔYt−2+νt+θ1νt−1+θ2νt−2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} 이제 지연된 는 오늘날 내 시리즈가 이전 이벤트의 영향을 받는다는 …

19 regression time-series interpretation

1

예측 모델링-혼합 모델링에 관심을 가져야합니까?

예측 모델링의 경우 무작위 효과 및 비 독립적 관측치 (반복 측정)와 같은 통계 개념에 관심을 가져야합니까? 예를 들어 ... 다양한 속성과 구매 플래그가있는 5 개의 DM 캠페인 (1 년 동안 발생) 데이터가 있습니다. 이상적으로는이 모든 데이터를 결합하여 캠페인 당시 고객 속성이 지정된 구매 모델을 구축하는 것이 이상적입니다. 구매 이벤트가 드물기 …

19 machine-learning predictive-models repeated-measures assumptions

1

비교 횟수가 증가함에 따라 Benjamini-Hochberg 보정이 더 보수적입니까?

전체 비교 횟수와 비교하여 Benjamini-Hochberg의 다중 테스트 보정은 얼마나 보수적인가요? 예를 들어 두 그룹에 대해 18,000 개의 기능 목록이 있고 Wilcoxon 테스트를 수행하여 p- 값을 얻는 경우. 나는 Benjamini-Hochberg를 사용하여 p- 값을 조정하고 아무것도 옆에 나오지 않습니다. Bonferroni 보정은 비교 횟수가 증가함에 따라 상당히 보수적 일 수 있다는 것을 알고 …

19 multiple-comparisons p-value

2

R의 표준 편차에 어떤 공식이 사용됩니까?

sdR 의 표준 편차 함수 에 어떤 공식이 사용 됩니까?

19 r standard-deviation

1

부트 스트랩 배포의 표준 오류 사용

(필요한 경우 R 코드를 무시하십시오. 주된 질문은 언어 독립적이므로) 간단한 통계 (예 : 평균)의 변동성을보고 싶다면 다음과 같은 이론을 통해 할 수 있다는 것을 알고 있습니다. x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) 또는 부트 스트랩으로 다음과 같이하십시오. library(boot) # Estimate …

19 r bootstrap nonlinear-regression

5

연속 변수와 범주 변수 사이의 "상관 관계"를 어떻게 연구합니까?

이러한 두 가지 유형의 변수 사이의 관계를 연구하기위한 의미있는 "상관 관계"측정법은 무엇입니까? R에서는 어떻게해야합니까?

19 r correlation categorical-data association-measure

8

R을 사용한 혼합 유형 데이터 클러스터링

잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 …

19 r clustering mixed-type-data