«descriptive-statistics» 태그된 질문

기술 통계량은 평균 및 표준 편차, 중앙값 및 사 분위수, 최대 값 및 최소값과 같은 샘플의 기능을 요약합니다. 여러 변수가있는 경우 상관 관계 및 크로스 탭이 포함될 수 있습니다. 박스 플롯, 히스토그램, 산점도 등의 시각적 디스플레이를 포함 할 수 있습니다.

5
정규화와 표준화의 차이점은 무엇입니까?
직장 상사가 정규화에 대해 들어 본 적이 없으므로 직장에서 이것을 논의했습니다. 선형 대수에서 정규화는 벡터를 길이로 나누는 것으로 나타납니다. 통계에서 표준화는 평균을 빼고 SD로 나눈 것을 말합니다. 그러나 그들은 다른 가능성과도 상호 교환 가능한 것처럼 보입니다. 어떤 종류의 범용 점수를 만들 때 , 다른 수단과 다른 SD를 가진 가지 다른 …


3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
표준 편차를 '합계'하는 방법은 무엇입니까?
월 평균 값과 해당 평균에 해당하는 표준 편차가 있습니다. 이제 월간 평균의 합으로 연간 평균을 계산하고 있습니다. 합산 평균의 표준 편차를 어떻게 나타낼 수 있습니까? 예를 들어 풍력 발전 단지의 출력을 고려할 때 : Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May …

8
서수 데이터에 사용할 기본 통계는 무엇입니까?
좀이 서수 데이터 설문 조사 질문에서 얻은합니다. 제 경우에는 리 커트 스타일 응답입니다 (강하게 동의하지 않음-반대-중립-동의 함-매우 동의 함). 내 데이터에서 그들은 1-5로 코딩됩니다. 나는 의미가 여기에 많은 의미가 있다고 생각하지 않으므로 유용한 기본 요약 통계는 무엇입니까?



5
연속 변수와 범주 형 (명목) 변수의 상관 관계
연속 형 (종속 변수)과 범주 형 (명목 : 성별, 독립 변수) 변수 사이의 상관 관계를 찾고 싶습니다. 연속 데이터는 정상적으로 배포되지 않습니다. 이전에는 Spearman 's 사용하여 계산했습니다 . 그러나 나는 그것이 옳지 않다는 말을 들었다.ρρ\rho 인터넷에서 검색하는 동안 상자 그림이 얼마나 관련되어 있는지 알 수 있습니다. 그러나 Pearson의 제품 모멘트 …

3
평균, 중앙값 및 모드 간의 경험적 관계
약간 왜곡 된 단항 분포의 경우 평균, 중간 및 모드 사이에 다음과 같은 경험적 관계가 있습니다. 이 관계는 어떻습니까 유래?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Karl Pearson은이 결론을 내리기 전에 수천 가지의 관계를 구성 했습니까? 아니면이 관계의 논리적 인 추론이 있습니까?

8
R의 그래픽 데이터 개요 (요약) 기능
나는 전에 R 패키지에서 이와 같은 기능을 보았을 것이라고 확신하지만 광범위한 인터넷 검색 후에는 어디서나 찾을 수없는 것 같습니다. 내가 생각하고있는 함수는 주어진 변수에 대한 그래픽 요약을 생성하여 일부 그래프 (히스토그램 및 상자 및 수염 그림)와 출력, 평균, SD 등과 같은 세부 정보를 제공하는 텍스트를 생성했습니다. 이 함수가 기본 R에 …

6
공분산 추정량의 분모가 왜 n-1이 아닌 n-2가 아니어야합니까?
(편향되지 않은) 분산 추정기의 분모는 이며, 관측치 가 개이고 하나의 모수 만 추정되기 때문입니다.Nn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 같은 토큰으로 두 개의 모수를 추정 할 때 왜 공분산의 분모가 가되지 않아야하는지 궁금합니다 .n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
로지스틱 회귀 95 % 신뢰 구간을 수동으로 계산하는 것과 R에서 confint () 함수를 사용하는 것 사이에 차이가있는 이유는 무엇입니까?
사랑하는 여러분, 제가 설명 할 수없는 이상한 것을 발견했습니다. 요약 : 로지스틱 회귀 모델에서 신뢰 구간을 계산하는 수동 방법과 R 함수 confint()는 다른 결과를 제공합니다. Hosmer & Lemeshow의 Applied Logistic Regression (2 판)을 진행했습니다. 세 번째 장에는 승산 비와 95 % 신뢰 구간을 계산하는 예가 있습니다. R을 사용하면 모델을 쉽게 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
변동 계수를 해석하는 방법은 무엇입니까?
나는 변동 계수 를 이해하려고 노력하고 있습니다. 다음 두 샘플 데이터에 적용하려고하면 결과를 해석하는 방법을 이해할 수 없습니다. 샘플 1이 이고 샘플 2가 이라고 가정 해 봅시다 . 보시 다시피 sample 2 sample 1 입니다.0,5,7,12,11,170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10,15,17,22,21,2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27}===+ 10+ 10+\ 10 둘 다 …

5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
변동이 분산과 동일합니까?
이것은 Cross Validated에 대한 첫 번째 질문이므로 사소한 것처럼 보일지라도 도와주세요 .-) 우선, 언어 차이의 결과이거나 통계에 실제로 결함이있는 것일 수 있습니다. 그럼에도 불구하고 여기 있습니다 : 모집단 통계에서 변동과 분산은 같은 항입니까? 그렇지 않다면 둘 사이의 차이점은 무엇입니까? 분산이 표준 편차의 제곱이라는 것을 알고 있습니다. 또한 데이터가 얼마나 드문 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.