통계 및 빅 데이터

5

중요한 결과를 얻을 때까지 데이터를 수집하는 이유는 제 1 종 오류율을 증가시키는 이유는 무엇입니까?

중요한 결과 (예 : )가 얻어 질 때까지 (즉, p- .. 해킹) Type I 오류율이 증가 할 때까지 왜 데이터를 수집하는지 궁금합니다 .p < .05p<.05p \lt .05 R이 현상에 대한 시연 도 대단히 감사하겠습니다 .

60 r hypothesis-testing p-value simulation type-i-and-ii-errors

15

비모수 통계보다 왜 매개 변수 통계가 선호됩니까?

누군가 가설 검정 또는 회귀 분석을 위해 비모수 통계 방법 대신 모수를 선택하는 이유를 설명해 줄 수 있습니까? 당신 때문에 내 마음, 그것은, 래프팅 가서 비 방수 시계를 선택처럼 할 수 는 젖지. 모든 경우에 작동하는 도구를 사용하지 않는 이유는 무엇입니까?

60 regression hypothesis-testing mathematical-statistics estimation nonparametric

11

통계의 맥락에서 직교는 무엇을 의미합니까?

다른 맥락에서, 직교는 "직각"또는 "수직"을 의미한다. 통계적 맥락에서 직교는 무엇을 의미합니까? 설명해 주셔서 감사합니다.

60 descriptive-statistics

8

테스트 데이터가 교육 데이터로 누출되지 않도록하려면 어떻게해야합니까?

예측 모델을 구축하는 사람이 있지만 적절한 통계 또는 기계 학습 원칙에 정통한 사람이 아니라고 가정합니다. 어쩌면 우리는 그 사람이 배우면서 도움을 줄 수도 있고, 또는 그 사람이 최소한의 지식이 필요한 소프트웨어 패키지를 사용하고있을 수도 있습니다. 이제이 사람은 실제 테스트가 샘플 외부 데이터 의 정확도 (또는 다른 메트릭)에서 온 것임을 잘 …

60 machine-learning classification predictive-models cross-validation out-of-sample

9

회귀 변수 선택에 올가미를 사용할 때의 단점은 무엇입니까?

내가 아는 것에서 변수 선택에 올가미를 사용하면 상관 된 입력 문제를 처리합니다. 또한 최소 각도 회귀와 같으므로 계산 속도가 느리지 않습니다. 그러나 많은 사람들 (예 : 생체 통계를하는 사람들)은 여전히 단계별 또는 단계적 변수 선택을 선호합니다. 올가미를 사용하는 것이 유리하지 않은 실질적인 단점이 있습니까?

60 regression feature-selection lasso

9

분산 분석의 기능을 시각화하는 방법은 무엇입니까?

분산 분석이란 무엇인지 시각적으로 설명 할 수있는 방법은 무엇입니까? 모든 참조, 링크 (R 패키지?)를 환영합니다.

60 data-visualization anova teaching

5

k- 평균 군집화와 PCA의 관계는 무엇입니까?

클러스터링 알고리즘 (예 : k- 평균) 전에 PCA (주성분 분석)를 적용하는 것이 일반적입니다. 실제로 클러스터링 결과를 향상시키는 것으로 여겨집니다 (소음 감소). 그러나 저는 PCA와 k- 평균의 관계에 대한 비교적이고 심층적 인 연구에 관심이 있습니다. 예를 들어 Chris Ding과 Xiaofeng He (2004 )는 Principal Component Analysis를 통한 K-means Clustering 은 "주요 …

60 clustering pca k-means

3

대각선에 상수를 추가하여 릿지 추정치가 OLS보다 나은 이유는 무엇입니까?

나는 능선 회귀 추정치는 것을 이해 의 크기에 잔류 제곱의 합 페널티 킥을 최소화βββ\betaββ\beta βr i d g e= ( λ I디+ X'엑스)− 1엑스'와이= 아르 기민[ RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] 그러나, 나는 완전히 그 사실의 중요성을 이해하지 못하는 β산등성이βridge\beta_\text{ridge} 다릅니다 βOLSβOLS\beta_\text{OLS} 만의 …

59 regression least-squares ridge-regression shrinkage

12

양측 테스트… 나는 단지 확신하지 못한다. 점은 무엇인가?

다음 발췌 부분은 다음과 같습니다. 단측 및 양측 테스트의 차이점은 무엇입니까? UCLA의 통계 도움말 사이트에서 ... 다른 방향으로 영향을 미치지 않은 결과를 고려하십시오. 기존 약물에 비해 개선 된 것으로 생각되는 새로운 약물을 개발했다고 상상해보십시오. 개선 사항을 감지하는 능력을 최대화하기 위해 단측 테스트를 선택하십시오. 그렇게하면 새로운 약이 기존 약보다 효과가 적은지 …

59 hypothesis-testing statistical-significance inference

13

대규모 연구에서 귀무 가설을 기각하지 못하면 귀무에 대한 증거가 아닌가?

귀무 가설 유의성 검정의 기본 한계는 연구원이 귀무에 찬성하여 증거를 수집 할 수 없다는 것입니다 ( 출처 ) 이 주장이 여러 곳에서 반복되는 것을 보았지만 이에 대한 정당성을 찾을 수 없습니다. 대규모 연구를 수행 하고 귀무 가설에 대한 통계적으로 유의미한 증거를 찾지 못하면 귀무 가설 에 대한 증거 가 아닌가?

59 hypothesis-testing

7

비용 함수 평가가 느린 경우 최적화

그라디언트 디센트 및 기타 여러 방법은 비용 함수에서 국소 최소값을 찾는 데 유용합니다. 수치 적이든 분석적 으로든 각 시점에서 비용 함수를 신속하게 평가할 수있을 때 효율적입니다. 이상한 상황 인 것 같습니다. 내 비용 함수의 각 평가는 비싸다. 지상 진실 표면에 대해 3D 표면을 최소화하는 일련의 매개 변수를 찾으려고합니다. 매개 변수를 …

59 gradient-descent optimization bayesian-optimization

3

xkcd 젤리 빈 만화를 설명하십시오.

나는 20 번의 총 테스트 중 중 한 번이 실행되므로 20 번의 테스트 중 하나에서 결과가 중요하다고 잘못 가정합니다 ( 0.05 = 1 / 20 ).p<0.05p<0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd 젤리 빈 만화- "중요한" 제목 : 중요 호버 텍스트 : " '그러므로 우리는 녹색 연구를 다시했는데 관련이 없었습니다.

59 hypothesis-testing statistical-significance confidence-interval p-value humor

6

잦은 바이에른 토론은 어디로 갔습니까?

통계의 세계는 잦은 사람들과 베이지안으로 나뉘어져 있습니다. 요즘에는 모두가 조금씩하는 것처럼 보입니다. 어떻게 이럴 수있어? 다른 접근 방식이 다른 문제에 적합하다면 왜 통계의 창시자가 이것을 보지 못했습니까? 또는, Frequentists가 토론에서 이기고 진정한 주관적인 베이지안이 의사 결정 이론으로 넘어 갔습니까?

59 bayesian frequentist history philosophical

2

ZCA 미백과 PCA 미백의 차이점은 무엇입니까?

ZCA 미백과 일반 미백 (주요 구성 요소를 PCA 고유 값의 제곱근으로 나눔)에 대해 혼란 스럽습니다. 내가 아는 한, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, 여기서 는 PCA 고유 벡터입니다.UU\mathbf U ZCA 미백의 용도는 무엇입니까? 일반 미백과 ZCA 미백의 차이점은 무엇입니까?

59 pca dimensionality-reduction image-processing

4

Fisher 정보 및 Cramer-Rao에 대한 직관적 인 설명

Fisher 정보, 그것이 무엇을 측정하고 어떻게 도움이되는지 편안하지 않습니다. 또한 Cramer-Rao와의 관계는 나에게 명백하지 않습니다. 누군가 이러한 개념에 대해 직관적으로 설명해 주시겠습니까?

59 estimation intuition fisher-information