통계 및 빅 데이터 statistical-significance

3

ROC AUC (평균)에 대한 두 분류기를 비교하기위한 통계적 유의성 (p- 값), 민감도 및 특이성

100 건의 테스트 세트와 2 개의 분류 기가 있습니다. 두 분류기 모두에 대한 예측을 생성하고 ROC AUC, 감도 및 특이성을 계산했습니다. 질문 1 : 모든 점수 (ROC AUC, 민감도, 특이성)와 관련하여 p- 값을 계산하여 하나가 다른 것보다 훨씬 나은지 확인하려면 어떻게해야합니까? 이제 100 건의 동일한 테스트 집합에 대해 각 사례마다 …

14 machine-learning statistical-significance roc auc sensitivity-specificity

3

가설 검정에 높은 양의 첨도가 문제가되는 이유는 무엇입니까?

나는 잔차의 긍정적 인 첨도가 정확한 가설 검정과 신뢰 구간 (따라서 통계적 추론에 문제가 있음)에 문제가 될 수 있다고 들었습니다 (죄송합니다. 이것이 사실입니까? 그렇다면 그 이유는 무엇입니까? 높은 양의 첨도 잔차가 잔차의 대부분이 잔차 평균 0에 가까워서 잔차가 적다는 것을 나타내지 않습니까? (답이 있다면 수학적으로 크게 기울이지 않았으므로 깊이있는 수학을 …

14 statistical-significance p-value assumptions kurtosis

3

데이터 크기가 거대 할 때 회귀 분석에서 통계적 유의성은 어떻게 되었습니까?

whuber 가 다음과 같이 흥미로운 점을 지적한 대규모 회귀 ( link ) 에 관한이 질문을 읽었습니다 . "거의 모든 통계 테스트는 너무 강력하여"유의 한 "효과를 거의 확실하게 확인할 수 있습니다. 유의성보다는 효과 크기와 같은 통계적 중요성에 더 집중해야합니다." --- 우버 이것이 입증 될 수있는 것이거나 실제로 어떤 일반적인 현상인지 궁금합니다. …

13 regression statistical-significance

7

결과를 "거의"또는 "약간"중요하다고 말하는 것이 잘못입니까?

비슷한 질문에 대한 일반적인 합의 : 결과를 "매우 중요"하다고 말하는 것이 잘못 되었습니까? "매우 중요"는 비 특정 적이지만 p- 값이 사전 설정된 유의성 임계 값보다 훨씬 낮은 연관의 강도를 설명하는 유효한 방법입니다. 그러나 임계 값 보다 약간 높은 p- 값을 설명하는 것은 어떻습니까? 나는 몇몇 논문이 "약간 중요하다", "거의 중요하다", …

13 hypothesis-testing statistical-significance p-value terminology

1

ANOVA의 의 값 이 동일한 데이터에 대한 여러 검정 의 값 보다 얼마나 작을 수 있습니까?

소개 : 오늘이 질문 에 대한 관심을 확인한 후, " 쌍별 t- 검정이없는 경우 분산 분석이 중요 할 수 있습니까? "라고 답했습니다. . 통계적 유의성이 단순한 이분법으로 이해되고 또는 보다 높은 것으로 판단 될 때 다양한 액수의 결과 (액면가)가 발생할 수 있습니다 . 위 질문에 대한 @Glen_b의 답변은 다음 과 …

13 hypothesis-testing anova statistical-significance t-test multiple-comparisons

2

통계적 유의성 테스트를 사용하여 군집 분석 결과 검증

클러스터 분석 결과를 검증하기 위해 통계적 유의성 테스트 (SST) 사용을 조사하고 있습니다. 이 주제와 관련하여 다음과 같은 여러 논문을 발견했습니다. " 높은 차원, 낮은 표본 크기 데이터에 대한 클러스터링의 통계 유의 사항 Fi를 cance 에 의해" 리우, Yufeng의 등. (2008) " 군집 분석의 일부 유의성 검정에서 ", Bock (1985) 그러나 …

13 hypothesis-testing clustering statistical-significance

3

부트 스트랩 회귀 기울기를 어떻게 비교합니까?

독립 변수 x 와 종속 변수 y 의 데이터 쌍을 각각 n 개 관측 한 두 개의 데이터 세트가 있다고 가정 해 봅시다 . 관측 값을 N 으로 부트 스트래핑 하고 회귀를 계산하여 각 데이터 세트에 대해 회귀 기울기 분포를 생성하고 y = a + bx를 계산 한다고 가정합니다.매번. 경사가 …

13 regression statistical-significance bootstrap

1

스피어 맨 상관 계수의 차이에 대한 유의성 검정

(빠른 답변을 많이 주셔서 감사합니다! 질문을 잘 못해서 다시 시도하겠습니다.) 두 Spearman의 상관 관계의 차이가 통계적으로 유의한지 여부를 확인하는 방법을 모르겠습니다. 그것을 찾는 방법을 알고 싶습니다. 내가 알고 싶었던 이유는 Gabrilovich와 Markovitch의 위키 백과 기반의 자연 언어 처리 의미 론적 해석 ( Journal of Artificial Intelligence Research 34 (2009) 443-498) …

13 hypothesis-testing statistical-significance spearman-rho

1

올가미에 대한 LARS 대 좌표 하강

L1 정규 선형 회귀 피팅에 LARS [1] 사용과 좌표 하강 사용의 장단점은 무엇입니까? 나는 주로 퍼포먼스 측면에 관심이있다 (내 문제는 N수십만에서 p20 이하인 경향이있다 ). 그러나 다른 통찰력도 인정 될 것이다. 편집 : 내가 질문을 게시 한 후 chl은 Friedman 등의 논문 [2]에 좌표 하강이 다른 방법보다 상당히 빠른 것으로 …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

GBM 패키지와 GBM을 사용하는 Caret

을 사용하여 모델 튜닝을 수행 caret했지만 gbm패키지를 사용하여 모델을 다시 실행했습니다 . caret패키지가 사용 gbm하고 출력이 동일해야한다는 것을 이해합니다 . 그러나 data(iris)RMSE와 R ^ 2를 평가 지표로 사용하면 약 5 %의 모델에서 불일치가 발생합니다. 부분 종속성 플롯을 사용 하기 위해 최적의 모델 성능을 찾고 caret싶지만 다시 실행 하고 싶습니다 gbm. …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

여러 순위 목록의 전체 순위

나는 운이없이이 포럼을 포함하여 온라인으로 볼 수있는 많은 문헌들을 살펴 보았고 누군가 내가 현재 직면하고있는 통계적 문제를 도울 수 있기를 바랐다. 5 순위의 데이터 목록이 있으며 각 항목은 위치 1 (최고)에서 위치 10 (최악)까지 10 개의 항목을 포함합니다. 문맥 상, 각 목록의 10 개 항목은 동일하지만 순위를 결정하는 데 사용되는 …

13 statistical-significance ranking valuation

2

상호 작용 모델에서 최상의 기능 찾기

기능 값이있는 단백질 목록이 있습니다. 샘플 테이블은 다음과 같습니다. ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 행은 단백질이고 열은 기능입니다. 또한 상호 작용하는 단백질 목록도 있습니다. 예를 들어 Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 문제점 : 예비 분석을 위해 어떤 기능이 단백질 상호 작용에 가장 큰 영향을 미치는지 알고 싶습니다. 내 이해는 …

13 machine-learning statistical-significance feature-selection networks

2

R의 상호 상관적 의의

두 시계열의 교차 상관 (ccf 함수)에서 얻은 서로 다른 지연의 상관 관계가 중요한지 어떻게 알 수 있습니까?

13 r statistical-significance cross-correlation

2

최적의 샘플 크기에 도달하기 전에 A / B 테스트를 중지하는 것이 왜 잘못입니까?

회사에서 A / B 테스트 결과 (웹 사이트 변형으로 실행)를 발표 할 책임이 있습니다. 우리는 한 달 동안 테스트를 실행하고 우리가 의미에 도달 (또는 의미가 오랜 시간 동안 테스트를 실행 한 후 도달하지 않은 경우 포기) 할 때까지, 지금 알아내는하고 뭔가가있다 일정한 간격의 p 값을 확인 잘못된 관행 . 나는 …

13 hypothesis-testing statistical-significance bias ab-test optimal-stopping

3

통계 : 알파와 베타의 관계

내 질문은 알파와 베타의 관계와 통계의 정의와 관련이 있습니다. 알파 = 유형 I 오류율 = NULL 가설이 올바른 것으로 간주되는 유의 수준 베타 = 유형 II 오류율 알파가 낮아지면 (알파 = 1- 특이성으로 특이도가 증가) 베타가 증가합니다 (베타 = 1-민감도 / 전력으로 민감도 / 전력 감소) 알파 변경은 베타에 어떤 …

13 statistical-significance mathematical-statistics

«statistical-significance» 태그된 질문