«hypothesis-testing» 태그된 질문

가설 검정은 데이터가 임의 변동의 영향보다는 주어진 가설과 일치하지 않는지 여부를 평가합니다.

2
최적의 샘플 크기에 도달하기 전에 A / B 테스트를 중지하는 것이 왜 잘못입니까?
회사에서 A / B 테스트 결과 (웹 사이트 변형으로 실행)를 발표 할 책임이 있습니다. 우리는 한 달 동안 테스트를 실행하고 우리가 의미에 도달 (또는 의미가 오랜 시간 동안 테스트를 실행 한 후 도달하지 않은 경우 포기) 할 때까지, 지금 알아내는하고 뭔가가있다 일정한 간격의 p 값을 확인 잘못된 관행 . 나는 …


3
여러 가지 (모두는 아님) 모수 적 가설 검정에서 랜덤 샘플링을 가정하는 이유는 무엇입니까?
Z, t 및 기타 여러 테스트는 데이터가 랜덤 샘플링을 기반으로하는 것으로 가정합니다. 왜? 실험적 연구를하고 있는데, 외부 연구보다 내부 타당성을 훨씬 더 중요하게 생각합니다. 따라서 전체 모집단에 대한 가설을 추론하지 않기로 동의했기 때문에 샘플이 약간 편향되어있을 수 있습니다. 그룹화는 여전히 임의적입니다. 즉, 편의를 위해 샘플 참가자를 선택하지만 무작위로 다른 그룹에 …

5
실험을 시작하기 전에 샘플 크기를 결정하거나 실험을 무기한 실행 하시겠습니까?
나는 몇 년 전에 통계를 연구하고 모든 것을 잊어 버렸으므로 이것들은 구체적인 것보다 일반적인 개념적 질문처럼 보일 수 있지만 여기에 내 문제가 있습니다. 전자 상거래 웹 사이트에서 UX 디자이너로 일하고 있습니다. 우리는 그것을 의심하기 시작한 몇 년 전에 만들어진 A / B 테스트 프레임 워크를 가지고 있습니다. 우리가 모든 결정을 …

2
선택한 가양 성 / 거짓 음수 오류율과 기본 비용 비율을 엄격하게 정당화하는 방법은 무엇입니까?
문맥 사회 과학자 및 통계 학자 그룹 ( Benjamin et al., 2017 )은 최근 "통계적 유의성"을 결정하기위한 임계 값으로 사용 된 전형적인 위양성 비율 ( = .05)을보다 보수적 인 임계 값으로 조정해야 한다고 제안했습니다. ( = .005). 경쟁하는 사회 과학자와 통계 학자 그룹 ( Lakens et al., 2018 )은이 또는 …

2
Kaggle 대회가 우연히 이겼습니까?
캐글 대회는 개최 테스트 세트를 기반으로 최종 순위를 결정합니다. 보류 된 테스트 세트는 샘플입니다. 모델링되는 모집단을 대표하지 않을 수도 있습니다. 각 제출은 가설과 같으므로 경쟁에서이긴 알고리즘은 우연히 테스트 세트를 다른 것보다 더 잘 일치시킬 수 있습니다. 다시 말해, 다른 테스트 세트가 선택되고 경쟁이 반복되는 경우 순위는 동일하게 유지됩니까? 후원 회사의 …

1
수렴 속도가 빠르기 때문에
내가 가지고 있다고 가정하자 IID하고 내가하는 가설 테스트를 수행 할 μ는 0입니다 내가 큰 N이와 중심 극한 정리를 사용할 수 있습니다 가정하자. 또한 μ 2 가 0 이라는 테스트를 수행 할 수 있는데, μ 가 0 이라는 테스트와 동등해야 합니다. 또한 n ( ˉ X 2 − 0 ) 은 …

2
2- 표본 비율 테스트에 lm 사용
선형 모델을 사용하여 잠시 동안 2- 표본 비율 테스트를 수행했지만 완전히 정확하지 않을 수도 있음을 깨달았습니다. 이항 군 + 항등 링크와 함께 일반화 선형 모형을 사용하면 풀링되지 않은 2- 표본 비율 테스트 결과가 정확하게 나타납니다. 그러나 선형 모델 (가우스 패밀리가있는 glm)을 사용하면 결과가 약간 다릅니다. 나는 이것이 R이 이항 대 …

1
로지스틱 회귀 분석에서 적합도 검정; 어떤 '적합'을 테스트하고 싶습니까?
나는 질문과 그 답을 언급하고 있습니다 : 로지스틱 회귀에서 개발 된 모델의 예측 능력을 비교하는 방법은 무엇입니까? @Clark Chong의 답변 및 @Frank Harrell의 답변 / 댓글. 그리고 Hosmer-Lemeshow 테스트에서 의 자유도χ2χ2\chi^2 및 질문에 대한 질문 . 나는 DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow 논문, "물류 회귀 모형에 …

1
'가설 테스트'와 '모델 선택'의 차이점은 무엇입니까?
문헌에서 두 용어는 종종 동의어 또는 짜여져 사용됩니다. 나는 지금 두 용어 사이에 분명한 차이점을 찾으려고 노력하고 있습니다. 내 관점에서 가설은 일반적으로 모델을 통해 표현됩니다. 따라서 우리는 귀무 가설 대 대안 가설을 검정하더라도 내 관점에서 모델 선택을 수행합니다. 누군가이 차이점에 대해 직관적으로 설명 할 수 있습니까?

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
이 분포가 왜 균일합니까?
우리는 베이지안 통계 테스트를 조사하고 있으며 이상한 현상을 겪고 있습니다. 다음과 같은 경우를 고려하십시오. A 또는 B 인구가 ​​어느 전환율이 더 높은지 측정하는 데 관심이 있습니다. 온 전성 검사의 경우 설정합니다 . 즉, 변환 확률이 두 그룹에서 동일합니다. 이항 모델을 사용하여 인공 데이터를 생성합니다. 예 :pA=pBpA=pBp_A = p_BnA∼Binomial(N,pA)nA∼Binomial(N,pA)n_A \sim \text{Binomial}(N, …

1
부트 스트랩 테스트를 수행하여 두 샘플의 평균을 비교하는 방법은 무엇입니까?
두 개의 심하게 치우친 표본이 있으며 부트 스트랩을 사용하여 t- 통계량을 사용하여 평균을 비교하려고합니다. 올바른 절차는 무엇입니까? 내가 사용하고있는 과정 나는 이것이 정규 분포가 아니라는 것을 알고 마지막 단계에서 원본 / 관측 된 데이터의 표준 오차를 사용하는 것이 적절 할까 걱정하고 있습니다. 내 단계는 다음과 같습니다. 부트 스트랩-무작위 샘플 교체 …

1
검정 통계량 분포가 양봉형이면 p- 값이 의미가 있습니까?
P- 값은 귀무 가설이 참이라고 가정 할 때 관찰 된 것 이상으로 검정 통계량을 얻을 확률을 정의합니다. 다시 말해, 그러나 검정 통계량이 분포에서 양봉이면 어떻게됩니까? p- 값이이 맥락에서 어떤 의미입니까? 예를 들어, R에서 일부 바이 모달 데이터를 시뮬레이션하려고합니다.P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) set.seed(0) # Generate bi-modal distribution bimodal …

2
독립 검정에서 카이 제곱 분포를 사용하는 이유는 무엇입니까?
적합도 테스트는 다음 사용 통계 : 것을 허가 테스트에서, 조건이 하나의 사용, 충족 - 분배 지정된 것을 P 값 계산하기 동일한 크기의 대표적인 샘플에서 이러한 값을 관찰하는 것이 사실 일 것이다.χ2χ2\chi^2 χ2χ20= ∑나는 = 1엔( O나는− E나는)2이자형나는χ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} χ2χ2\chi^2H0H0H_0 그러나 통계량 가 ( 자유도를 갖는) 를 따르 려면 독립 표준 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.