통계 및 빅 데이터 mean

2

나는 다음과 같은 단면 Cantelli의 Chebyshev 불평등에 관심이 있습니다 . P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 기본적으로 모집단 평균과 분산을 알고 있으면 특정 값을 관찰 할 확률의 상한을 계산할 수 있습니다. (최소한 나의 이해였습니다.) 그러나 실제 모집단 평균 및 분산 대신 샘플 …

32 probability mathematical-statistics probability-inequalities mean

4

Winsorizing vs. Trimming 데이터의 상대적인 장점은 무엇입니까?

데이터 분류 는 데이터 세트의 극단 값을 각 끝에서 특정 백분위 수 값 으로 바꾸는 것을 의미하며 , 트리밍 또는 자르기는 이러한 극단 값을 제거 합니다. 난 항상 같은 평균이나 표준 편차와 같은 통계를 계산할 때 이상치의 영향을 줄일 수있는 실행 가능한 옵션으로 설명한 두 가지 방법을 모두 볼 수 …

31 standard-deviation mean truncation trimmed-mean winsorizing

8

특이 값을 평균으로 바꾸기

이 질문은 인터넷에 정통하지 않은 친구가 물었습니다. 통계 배경이 없으며이 질문에 대해 인터넷을 검색했습니다. 문제는 : 특이 치를 평균값으로 대체 할 수 있습니까? 가능하다면이 진술을 뒷받침 할 책 참조 / 저널이 있습니까?

31 mean outliers robust winsorizing

5

"평균 가치"와 "평균"의 차이점은 무엇입니까?

Wikipedia 는 다음과 같이 설명합니다. 데이터 세트의 경우 평균은 값의 합계를 값 수로 나눈 값입니다. 그러나이 정의는 내가 "평균"이라고 부르는 것과 일치합니다 (적어도 그것은 내가 배우는 것을 기억합니다). 그러나 Wikipedia는 다시 한 번 인용합니다. '중간'및 '모드'를 포함하여 일부 사람들이 평균과 혼동하는 샘플을 사용하는 다른 통계적 측정 방법이 있습니다. 혼란 스럽습니다. …

31 mean interpretation average

2

비대칭 분포의 평균에 대해 신뢰할 수있는 비모수 적 신뢰 구간이 있습니까?

로그 정규 분포와 같이 매우 치우친 분포는 정확한 부트 스트랩 신뢰 구간을 생성하지 않습니다. 다음은 R에서 어떤 부트 스트랩 방법을 사용하든 왼쪽 및 오른쪽 꼬리 영역이 이상적인 0.025와 거리가 멀다는 것을 보여주는 예입니다. require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', …

30 confidence-interval nonparametric mean bootstrap median

4

mean = mode는 대칭 분포를 의미합니까?

이 질문에 mean = median 사례가 있었지만 mean = mode와 관련된 것을 찾지 못했습니다. 모드가 평균과 같으면 항상 이것이 대칭 분포라는 결론을 내릴 수 있습니까? 이 방식의 중앙값도 알아야합니까?

30 distributions mean skewness mode symmetry

5

머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법

예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

평균 대 도박꾼의 잘못에 대한 회귀

한편으로는 평균에 대한 회귀가 있고 다른 한편으로는 도박꾼의 오류가 있습니다. 도박꾼의 오류는 Miller와 Sanjurjo (2019)에 의해 "임의의 시퀀스가 반전에 대한 체계적인 경향을 가지고 있다는 잘못된 생각, 즉 유사한 결과의 줄무늬가 계속되는 것보다 더 끝날 가능성이 높다"는 것으로 정의됩니다. 다음 시험에서는 연속으로 시간이 불균형 적으로 떨어질 것으로 생각됩니다. 나는 마지막 경기에서 …

29 regression mean fallacy gambling

1

자유도는 정수가 아닌 숫자 일 수 있습니까?

GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

중심을 찾는 것이 평균을 찾는 것과 어떻게 다릅니 까?

계층 적 클러스터링을 수행 할 때 많은 메트릭을 사용하여 클러스터 간의 거리를 측정 할 수 있습니다. 이러한 두 가지 메트릭은 클러스터의 중심점 및 데이터 포인트의 평균을 의미합니다. 평균과 중심의 차이점은 무엇입니까? 클러스터에서 동일한 지점이 아닙니까?

26 clustering mean

3

두 정규 평균 비율의 신뢰 구간을 계산하는 방법

두 평균의 비율에 대한 신뢰 구간에 대한 한계를 도출하려고합니다 . 가정 해보자 X 1 ~ N ( θ 1 , σ 2 ) 및 X 2 ~ N ( θ 2 , σ 2 ) 독립적 인, 평균 비율 Γ = θ 1 / θ 2 . 나는 해결하려고 노력했다 …

26 normal-distribution mean

3

산술 평균이 기하 평균에 매우 가까운 경우 데이터에 대해 무엇을 결론 낼 수 있습니까?

~ 0.1 %와 같이 서로 매우 근접한 기하 평균과 산술 평균에 대해 중요한 것이 있습니까? 그러한 데이터 세트에 대해 어떤 추측을 할 수 있습니까? 나는 데이터 세트를 분석하려고 노력했으며, 아이러니하게도 값이 매우 가깝다는 것을 알았습니다. 정확하지는 않지만 가깝습니다. 또한 산술 평균 기하학 평균 불평등의 빠른 온 전성 검사와 데이터 수집 …

24 descriptive-statistics mean geometric-mean

4

데이터 분포가 대칭인지 확인하는 방법

중간 값과 평균이 거의 같으면 대칭 분포가 있음을 의미하지만이 특별한 경우 확실하지 않습니다. 평균과 중앙값은 상당히 가깝고 (0.487m / 갤런 차이) 대칭 분포가 있다고 말하지만 박스 플롯을 보면 약간 긍정적으로 치우친 것처럼 보입니다 (확인 된 중앙값은 Q3보다 Q1에 가깝습니다) 값으로). (이 소프트웨어에 대한 특정 조언이 있으면 Minitab을 사용하고 있습니다.)

23 distributions mean skewness median qq-plot

4

평균이 평균과 다른 샘플에서 더 안정적인 경향이있는 이유는 무엇입니까?

Andy Fields 등이 R 을 사용한 통계 발견의 섹션 1.7.2는 평균 대 중앙값의 장점을 나열하면서 다음과 같이 설명합니다. ... 평균은 다른 샘플에서 안정적입니다. 이것은 중간의 많은 미덕을 설명한 후에, 예를 들어 ... 중앙값은 분포의 양쪽 끝에서 극한 점수의 영향을받지 않습니다 ... 중앙값이 극단적 인 점수에 상대적으로 영향을받지 않는다는 것을 감안할 …

22 mean median

5

어떤 분포의 평균이 정의되지 않은 이유는 무엇입니까?

많은 PDF는 마이너스에서 양의 무한대까지 다양하지만 일부 수단은 정의되어 있지만 일부는 정의되지 않았습니다. 어떤 공통적 인 특성으로 계산할 수 있습니까?

21 distributions mean

«mean» 태그된 질문