통계 및 빅 데이터 distributions

5

모델 분포 함수가 데이터의 이론적 / 실제 분포와 얼마나 다른지에 따라 KL Divergence의 직관에 대해 배웠습니다. 내가 읽고있는 출처는이 두 분포 사이의 '거리'에 대한 직관적 인 이해가 도움이되지만 두 분포 PPP 와 QQQ 대해 문자 그대로 취해서는 안된다고 말하면서 KL 분기는 PPP 와 QQQ 에서 대칭이 아닙니다 . 마지막 진술을 …

47 distributions distance intuition kullback-leibler

5

두 그룹에 대한 t- 검정과 분산 분석이 동일하다면 왜 가정이 같지 않습니까?

나는 이것을 머리 둘레에 완전히 감쌌다 고 확신하지만 그것을 알아낼 수는 없다. t- 검정은 Z 분포를 사용하여 두 정규 분포를 비교합니다. 이것이 DATA에 정규성이 있다고 가정 한 이유입니다. 분산 분석은 더미 변수를 사용한 선형 회귀 분석과 동일하며 OLS와 마찬가지로 제곱합을 사용합니다. 이것이 RESIDUALS의 정규성에 대한 가정이있는 이유입니다. 몇 년이 걸렸지 …

47 distributions regression normality-assumption t-test anova

3

로그 변환 예측 변수 및 / 또는 응답의 해석

종속 변수, 종속 변수 및 독립 변수 또는 독립 변수 만 로그 변환인지 해석에 차이가 있는지 궁금합니다. 의 경우를 고려 log(DV) = Intercept + B1*IV + Error IV를 백분율 증가로 해석 할 수 있지만 log(DV) = Intercept + B1*log(IV) + Error 또는 내가있을 때 DV = Intercept + B1*log(IV) + …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

6

분포 사이의 Kolmogorov 거리에 대한 동기

두 확률 분포가 얼마나 유사한 지 측정하는 방법에는 여러 가지가 있습니다. (다른 서클에서) 널리 사용되는 방법은 다음과 같습니다. Kolmogorov 거리 : 분포 함수들 간의 sup-distance; Kantorovich-Rubinstein 거리 : Lipschitz 상수 갖는 두 함수 분포에 대한 기대치 간의 최대 차이 는 분포 함수 사이의 L 1 거리 111이기도 합니다.L1L1L^1 한정된 립 …

45 distributions probability hypothesis-testing mathematical-statistics

6

데이터가 정규 분포를 따르는 지 확인하기 위해 R을 사용하여 테스트를 수행하는 방법

다음 구조의 데이터 세트가 있습니다. a word | number of occurrence of a word in a document | a document id R에서 정규 분포 검정을 어떻게 수행 할 수 있습니까? 아마 쉬운 질문이지만 저는 R 초보자입니다.

44 r distributions normality-assumption

5

가짜 균일 난수 : 실제 균일 데이터보다 더 균일하게 분포

나는 균일하게 분포 된 것처럼 보이는 난수를 생성하는 방법을 찾고 있습니다. 모든 테스트는 그것들이 실제 균일 한 데이터보다 더 고르게 분포 되어 있다는 점을 제외하고는 균일 한 것으로 보입니다 . "참된"균일 한 랜덤에 대한 문제는 가끔씩 클러스터된다는 것입니다. 이 효과는 샘플 크기가 작을수록 강해집니다. 대략적으로 말해서 : U [0; 1]에서 …

43 distributions random-generation uniform quasi-monte-carlo

3

어느 쪽이 더 두꺼운 꼬리, 대수 정규 또는 감마를 가지고 있습니까?

(이것은 이메일을 통해 나에게 온 질문에 기초합니다. 같은 사람과의 이전 간단한 대화에서 일부 컨텍스트를 추가했습니다.) 작년에 나는 감마 분포가 로그 정규보다 더 무겁다는 말을 들었고, 그 이후에는 그렇지 않다고 들었습니다. 어느 쪽 이 더 무겁습니까? 관계를 탐색하는 데 사용할 수있는 리소스는 무엇입니까?

41 distributions gamma-distribution lognormal heavy-tailed

8

주어진 샘플이 푸 아송 분포에서 추출되는지 어떻게 테스트 할 수 있습니까?

정규성 테스트를 알고 있지만 "포아송"을 어떻게 테스트합니까? ~ 1000이 아닌 음이 아닌 정수의 샘플을 가지고 있는데, Poisson 분포에서 가져온 것으로 의심되며 테스트하고 싶습니다.

41 hypothesis-testing distributions poisson-distribution goodness-of-fit

3

평균, 중앙값 및 모드 간의 경험적 관계

약간 왜곡 된 단항 분포의 경우 평균, 중간 및 모드 사이에 다음과 같은 경험적 관계가 있습니다. 이 관계는 어떻습니까 유래?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Karl Pearson은이 결론을 내리기 전에 수천 가지의 관계를 구성 했습니까? 아니면이 관계의 논리적 인 추론이 있습니까?

40 distributions mathematical-statistics descriptive-statistics history

4

정규 확률 변수에 대한 대략적인 순서 통계

특정 랜덤 분포의 순서 통계에 대해 잘 알려진 공식이 있습니까? 특히 정규 랜덤 변수의 첫 번째 및 마지막 순서 통계이지만 더 일반적인 대답도 인정됩니다. 편집 : 명확히하기 위해 정확한 적분 표현식이 아니라 다소 명시 적으로 평가 될 수있는 수식을 찾고 있습니다. 예를 들어, 정규 rv의 1 차 통계량 (즉, 최소값)에 …

38 distributions normal-distribution approximation order-statistics

9

Bernoulli 랜덤 변수의 합을 효율적으로 모델링하는 방법은 무엇입니까?

나는 ~ 15-40k 독립적 인 Bernoulli 랜덤 변수 ( ) 의 합인 랜덤 변수 ( )를 모델링하고 있는데 , 각각 성공 확률이 다릅니다 ( p_i ). 공식적으로 Y = \ sum X_i 여기서 \ Pr (X_i = 1) = p_i 및 \ Pr (X_i = 0) = 1-p_i 입니다.YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i …

38 r distributions binomial random-variable poisson-binomial

3

안장 근사치는 어떻게 작동합니까?

안장 근사치 는 어떻게 작동합니까? 어떤 종류의 문제가 좋은가요? (예를 들어 특정 예를 자유롭게 사용하십시오) 단점, 어려움, 조심해야 할 것들, 또는 경고에 대한 함정이 있습니까?

38 distributions mathematical-statistics mgf saddlepoint-approximation partial-moments

2

쿨백-레 블러 및 콜로 모고 로프-스 미르 노프 거리

Kullback–Leibler와 Kolmogorov-Smirnov 거리 측정 간에는 공식적인 차이가 많이 있음을 알 수 있습니다. 그러나 둘 다 분포 사이의 거리를 측정하는 데 사용됩니다. 하나가 다른 하나 대신 사용해야하는 일반적인 상황이 있습니까? 그렇게하는 근거는 무엇입니까?

37 distributions distance-functions kolmogorov-smirnov kullback-leibler

2

음 이항 분포 내부의 모수 이해

나는 다양한 모델로 내 데이터에 적합하고 있음을 파악하려고했다 fitdistr라이브러리 함수 MASS의이 R저를주는 Negative Binomial가장 적합한다. 이제 위키 페이지에서 정의는 다음과 같습니다. NegBin (r, p) 분포는 마지막 시험에서 성공한 k + r Bernoulli (p) 시험에서 k 실패 및 r 성공 확률을 설명합니다. R모델 피팅을 수행하는 데 사용하면 두 개의 매개 변수 …

37 r distributions modeling negative-binomial

10

생존 시간이 기하 급수적으로 분포 된 것으로 추정되는 이유는 무엇입니까?

UCLA IDRE에 대한이 게시물에서 생존 분석을 배우고 있으며 섹션 1.2.1에서 넘어졌습니다. 튜토리얼은 말합니다 : ... 생존 시간이 기하 급수적으로 분포 된 것으로 알려진 경우, 생존 시간 을 관찰 할 확률은 ... 생존 시간이 기하 급수적으로 분포 된 것으로 추정되는 이유는 무엇입니까? 나에게는 매우 부자연 스럽습니다. 정규 분포가 아닌 이유는 무엇입니까? …

36 distributions survival assumptions exponential

«distributions» 태그된 질문