«mean» 태그된 질문

랜덤 변수의 예상 값; 또는 샘플의 위치 측정.

2
단측 체비 쇼프 불평등의 표본 버전이 존재합니까?
나는 다음과 같은 단면 Cantelli의 Chebyshev 불평등에 관심이 있습니다 . P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 기본적으로 모집단 평균과 분산을 알고 있으면 특정 값을 관찰 할 확률의 상한을 계산할 수 있습니다. (최소한 나의 이해였습니다.) 그러나 실제 모집단 평균 및 분산 대신 샘플 …

4
Winsorizing vs. Trimming 데이터의 상대적인 장점은 무엇입니까?
데이터 분류 는 데이터 세트의 극단 값을 각 끝에서 특정 백분위 수 값 으로 바꾸는 것을 의미하며 , 트리밍 또는 자르기는 이러한 극단 값을 제거 합니다. 난 항상 같은 평균이나 표준 편차와 같은 통계를 계산할 때 이상치의 영향을 줄일 수있는 실행 가능한 옵션으로 설명한 두 가지 방법을 모두 볼 수 …

8
특이 값을 평균으로 바꾸기
이 질문은 인터넷에 정통하지 않은 친구가 물었습니다. 통계 배경이 없으며이 질문에 대해 인터넷을 검색했습니다. 문제는 : 특이 치를 평균값으로 대체 할 수 있습니까? 가능하다면이 진술을 뒷받침 할 책 참조 / 저널이 있습니까?

5
"평균 가치"와 "평균"의 차이점은 무엇입니까?
Wikipedia 는 다음과 같이 설명합니다. 데이터 세트의 경우 평균은 값의 합계를 값 수로 나눈 값입니다. 그러나이 정의는 내가 "평균"이라고 부르는 것과 일치합니다 (적어도 그것은 내가 배우는 것을 기억합니다). 그러나 Wikipedia는 다시 한 번 인용합니다. '중간'및 '모드'를 포함하여 일부 사람들이 평균과 혼동하는 샘플을 사용하는 다른 통계적 측정 방법이 있습니다. 혼란 스럽습니다. …

2
비대칭 분포의 평균에 대해 신뢰할 수있는 비모수 적 신뢰 구간이 있습니까?
로그 정규 분포와 같이 매우 치우친 분포는 정확한 부트 스트랩 신뢰 구간을 생성하지 않습니다. 다음은 R에서 어떤 부트 스트랩 방법을 사용하든 왼쪽 및 오른쪽 꼬리 영역이 이상적인 0.025와 거리가 멀다는 것을 보여주는 예입니다. require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', …


5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

10
평균 대 도박꾼의 잘못에 대한 회귀
한편으로는 평균에 대한 회귀가 있고 다른 한편으로는 도박꾼의 오류가 있습니다. 도박꾼의 오류는 Miller와 Sanjurjo (2019)에 의해 "임의의 시퀀스가 ​​반전에 대한 체계적인 경향을 가지고 있다는 잘못된 생각, 즉 유사한 결과의 줄무늬가 계속되는 것보다 더 끝날 가능성이 높다"는 것으로 정의됩니다. 다음 시험에서는 연속으로 시간이 불균형 적으로 떨어질 것으로 생각됩니다. 나는 마지막 경기에서 …

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
중심을 찾는 것이 평균을 찾는 것과 어떻게 다릅니 까?
계층 적 클러스터링을 수행 할 때 많은 메트릭을 사용하여 클러스터 간의 거리를 측정 할 수 있습니다. 이러한 두 가지 메트릭은 클러스터의 중심점 및 데이터 포인트의 평균을 의미합니다. 평균과 중심의 차이점은 무엇입니까? 클러스터에서 동일한 지점이 아닙니까?
26 clustering  mean 


3
산술 평균이 기하 평균에 매우 가까운 경우 데이터에 대해 무엇을 결론 낼 수 있습니까?
~ 0.1 %와 같이 서로 매우 근접한 기하 평균과 산술 평균에 대해 중요한 것이 있습니까? 그러한 데이터 세트에 대해 어떤 추측을 할 수 있습니까? 나는 데이터 세트를 분석하려고 노력했으며, 아이러니하게도 값이 매우 가깝다는 것을 알았습니다. 정확하지는 않지만 가깝습니다. 또한 산술 평균 기하학 평균 불평등의 빠른 온 전성 검사와 데이터 수집 …

4
데이터 분포가 대칭인지 확인하는 방법
중간 값과 평균이 거의 같으면 대칭 분포가 있음을 의미하지만이 특별한 경우 확실하지 않습니다. 평균과 중앙값은 상당히 가깝고 (0.487m / 갤런 차이) 대칭 분포가 있다고 말하지만 박스 플롯을 보면 약간 긍정적으로 치우친 것처럼 보입니다 (확인 된 중앙값은 Q3보다 Q1에 가깝습니다) 값으로). (이 소프트웨어에 대한 특정 조언이 있으면 Minitab을 사용하고 있습니다.)

4
평균이 평균과 다른 샘플에서 더 안정적인 경향이있는 이유는 무엇입니까?
Andy Fields 등이 R 을 사용한 통계 발견의 섹션 1.7.2는 평균 대 중앙값의 장점을 나열하면서 다음과 같이 설명합니다. ... 평균은 다른 샘플에서 안정적입니다. 이것은 중간의 많은 미덕을 설명한 후에, 예를 들어 ... 중앙값은 분포의 양쪽 끝에서 극한 점수의 영향을받지 않습니다 ... 중앙값이 극단적 인 점수에 상대적으로 영향을받지 않는다는 것을 감안할 …
22 mean  median 


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.