통계 및 빅 데이터 proportion

3

관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

카이 제곱 검정과 동일한 비율의 검정 사이의 관계는 무엇입니까?

상호 배타적 인 특성을 가진 네 명의 인구가 있다고 가정합니다. 각 모집단에서 무작위 표본을 추출하여 측정중인 특성에 대한 크로스 탭 또는 빈도 표를 구성합니다. 내가 말하는 것이 맞습니까? 모집단과 특성간에 관계가 있는지 여부를 테스트하려면 (예 : 한 모집단이 특성 중 하나의 빈도가 높은지 여부) 카이 제곱 검정을 실행하고 결과가 유의한지 …

52 chi-squared proportion contingency-tables z-test

4

R에서 정확한 두 표본 비율 이항 테스트 (및 일부 이상한 p- 값)

다음 질문을 해결하려고합니다. A 선수는 25 경기 중 17 승, B 선수는 20 명 중 8 승을 기록했습니다. 두 비율 사이에 큰 차이가 있습니까? R에서해야 할 일은 다음과 같습니다. > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, …

23 r hypothesis-testing statistical-significance binomial proportion

6

평균 가치 역설-이것이 무엇입니까?

데이터 세트가 있습니다. 관측치와 변수를 말합니다 .101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 …

22 proportion descriptive-statistics paradox

3

A / B 테스트를위한 샘플 크기를 안전하게 결정

A / B 테스트 도구 를 구축하려는 소프트웨어 엔지니어 입니다. 나는 통계 통계가 확실하지 않지만 지난 며칠 동안 꽤 많이 읽었습니다. 여기에 설명 된 방법론을 따르고 있으며 아래 관련 요점을 요약합니다. 이 도구를 사용하면 설계자와 도메인 전문가가 웹 사이트를 구성하여 특정 URL에서 수신 된 트래픽을 둘 이상의 URL로 분할 할 …

22 hypothesis-testing statistical-significance proportion ab-test

4

엣지 케이스의 정밀도 및 리콜에 대한 올바른 값은 무엇입니까?

정밀도는 다음과 같이 정의됩니다. p = true positives / (true positives + false positives) 로, 즉를 정확 true positives하고 false positives, 정밀도가 한 접근 방식 0? 리콜에 대한 동일한 질문 : r = true positives / (true positives + false negatives) 현재이 값을 계산 해야하는 통계 테스트를 구현 중이며 때로는 …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

어떤 수준에서입니다

배경 : 안전하게 건너 뛰십시오-참조를 위해 여기 있으며 질문을 정당화합니다. 이 문서 의 시작 부분은 다음 과 같습니다. "Karl Pearson의 유명한 카이-제곱 비상 테스트는 정규 분포를 기반으로하는 z 통계라고하는 다른 통계량에서 파생됩니다. 가장 간단한 버전의 χ2χ2\chi^2 는 수학적으로 동일한 z 테스트와 동일한 것으로 표시 될 수 있습니다.이 테스트는 동일한 결과를 …

15 chi-squared proportion z-test

5

카이 제곱을 사용하여 비율을 비교할 수 있습니까?

카이 제곱 테스트는 샘플이 예상 값 세트와 크게 다른지 확인하는 데 유용하다는 것을 읽었습니다. 예를 들어, 다음은 사람들이 선호하는 색상 (n = 15 + 13 + 10 + 17 = 55 총 응답자)에 대한 설문 조사 결과 테이블입니다. red,blue,green,yellow 15,13,10,17 카이 제곱 검정은이 표본이 각 색상을 좋아하는 사람들의 동등한 확률에 …

13 chi-squared hypothesis-testing proportion

1

선형 회귀 분석에서 독립 변수로 1을 합한 비율 해석

범주 형 변수 개념과 친숙성을 피하기 위해 한 수준을 기준선으로 맞출 수있는 각각의 더미 변수 코딩에 익숙합니다. 또한 이러한 모델의 모수 추정값을 해석하는 방법에 대해서도 잘 알고 있습니다. 기준선 범주를 기준으로 주어진 적합 수준의 범주 형 예측 변수에 대한 예상 결과 변화입니다. 내가 확실하지 않은 것은 1 에 비례하는 독립 …

13 regression interpretation proportion multicollinearity

1

"계수 비율"과 "연속 비율"의 차이점은 무엇입니까?

다른 질문 에 대한 의견에서 , 논의중인 주제가 "계수 비율"또는 "연속 비율"인지에 대한 설명이 요구되었고, 후속 조치는 그 차이가 중요한 정보 (물류 / 이항 대 베타 회귀에 대한 주제)임을 나타냈다. 이 둘의 차이점은 무엇이며 차이점은 어디에 있습니까? "비율"로 작업 할 때와 "연속 비율"로 작업 할 때 명심해야 할 중요한 사항은 …

12 terminology proportion

2

2- 표본 비율 테스트에 lm 사용

선형 모델을 사용하여 잠시 동안 2- 표본 비율 테스트를 수행했지만 완전히 정확하지 않을 수도 있음을 깨달았습니다. 이항 군 + 항등 링크와 함께 일반화 선형 모형을 사용하면 풀링되지 않은 2- 표본 비율 테스트 결과가 정확하게 나타납니다. 그러나 선형 모델 (가우스 패밀리가있는 glm)을 사용하면 결과가 약간 다릅니다. 나는 이것이 R이 이항 대 …

12 r hypothesis-testing generalized-linear-model proportion

1

비율이 독립 변수 인 경우 비율을 변환하는 가장 적절한 방법은 무엇입니까?

나는이 문제를 이해했다고 생각했지만 확실하지 않으며 진행하기 전에 다른 사람들과 확인하고 싶습니다. 나는 두 개의 변수를 가지고 X와 Y. Y는 비율이며 0과 1로 제한되지 않으며 일반적으로 정규 분포입니다. X비율이며 0과 1로 제한됩니다 (0.0에서 0.6까지 실행). 나는의 선형 회귀를 실행하면 Y ~ X나는 것을 발견 X하고 Y크게 선형 적으로 관련이 있습니다. …

12 r regression data-transformation nonlinear-regression proportion

5

매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?

데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

비 수학자를위한 Clopper-Pearson

누군가 Clopper-Pearson CI 이외의 직관에 대한 비율을 설명 할 수 있는지 궁금합니다. 내가 아는 한 모든 CI에는 차이가 있습니다. 그러나 비율의 경우 비율이 0 또는 1 (0 % 또는 100 %) 인 경우에도 Clopper-Pearson CI를 계산할 수 있습니다. 수식을 보려고 시도했는데 이항 분포의 백분위 수를 갖는 것으로 이해하고 CI를 찾는 …

12 confidence-interval proportion

2

은 VS -test

방금 존경받는 (인기있는) 과학 잡지 (독일 PM, 02/2013, p.36)에서 흥미로운 실험에 대해 읽었습니다 (불행히도 소스가 없음). 직관적으로 결과의 중요성을 의심했기 때문에 주목을 받았지만 제공된 정보는 통계 테스트를 재현하기에 충분했습니다. 연구원들은 추운 날씨에 추워지면 감기에 걸릴 확률이 높아지는 지 궁금했습니다. 그래서 그들은 무작위로 180 명의 학생 그룹을 두 그룹으로 나눕니다. 한 …

12 hypothesis-testing chi-squared experiment-design proportion biostatistics

«proportion» 태그된 질문