통계 및 빅 데이터

16

전직 동료가 한 번 나에게 다음과 같이 주장했다. 우리는 일반적으로 널 (null) 하에서 무조건 또는 거의 정상적인 랜덤 변수를 생성하는 공정 결과에 정규성 테스트를 적용 합니다 ( '무증상'부분은 우리가 만들 수없는 수량에 의존합니다). 저렴한 메모리, 빅 데이터 및 빠른 프로세서의 시대에 정규성 테스트는 항상 큰 (심지어 크지는 않지만) 샘플에 대한 …

298 hypothesis-testing normality-assumption philosophical

7

다중 회귀 분석을 수행 할 때는 예측 변수를 언제 중심에두고 언제 표준화해야합니까?

일부 문헌에서는 다른 단위로 여러 설명 변수가있는 회귀를 표준화해야한다고 읽었습니다. (표준화는 평균을 빼고 표준 편차로 나누는 것으로 구성됩니다.) 어떤 경우에 데이터를 표준화해야합니까? 데이터를 중앙에만 배치해야하는 경우가 있습니까 (예 : 표준 편차로 나눔)

281 multiple-regression standardization centering

9

고정 효과, 임의 효과 및 혼합 효과 모델의 차이점은 무엇입니까?

간단히 말해서 고정 효과, 임의 효과 및 혼합 효과 모델의 차이점을 어떻게 설명합니까 (단순한 예일 경우)?

267 mixed-model random-effects-model definition fixed-effects-model

6

데이터를 0-1 범위로 정규화하는 방법은 무엇입니까?

나는 정상화에서 길을 잃었습니다. 누구든지 나를 안내 할 수 있습니까? 최소값과 최대 값이 각각 -23.89 및 7.54990767입니다. 5.6878의 값을 얻으면이 값을 0에서 1의 스케일로 어떻게 조정할 수 있습니까?

265 normalization

11

자유도를 이해하는 방법?

에서 위키 백과 , 통계의 자유도의 세 가지 해석이있다 : 통계에서 자유도는 통계 의 최종 계산 에서 자유롭게 변할 수있는 값의 수입니다 . 통계 매개 변수의 추정치는 다른 양의 정보 또는 데이터를 기반으로 할 수 있습니다. 모수의 추정치에 들어가는 독립적 인 정보 의 수를 자유도 (df)라고합니다. 일반적으로 모수 추정치의 자유도는 …

257 interpretation degrees-of-freedom intuition

30

유명한 통계 인용

가장 좋아하는 통계 견적은 무엇입니까? 이것은 커뮤니티 위키이므로 답변 당 한 따옴표를 입력하십시오.

248 references history

16

통계 테스트에서 p 값과 t 값의 의미는 무엇입니까?

통계 과정을 밟고 동료 학생들을 돕기 위해 노력한 후, 많은 헤드 데스크 뱅킹에 영감을주는 한 가지 주제가 통계적 가설 검정의 결과를 해석하고 있음을 발견했습니다. 학생들은 주어진 시험에 필요한 계산을 수행하는 방법을 쉽게 배우지 만 결과 해석에 매달리는 것 같습니다. 많은 전산화 도구는 "p 값"또는 "t 값"으로 테스트 결과를보고합니다. 통계에서 첫 …

246 hypothesis-testing p-value interpretation intuition canonical-question

7

머신 러닝에서의 배깅, 부스팅 및 스태킹

이 세 가지 방법의 유사점과 차이점은 무엇입니까? 포장지, 일러스트레이션, 스태킹? 어느 것이 가장 좋은가요? 그리고 왜? 각각에 대해 예를 들어 주시겠습니까?

245 machine-learning boosting ensemble bagging model-averaging

11

Markov Chain Monte Carlo (MCMC)를 평신도에게 어떻게 설명 하시겠습니까?

개념, 사용 이유 및 예일 수 있습니다.

240 bayesian mcmc intuition teaching

8

유클리드 거리가 높은 차원에서 좋은 지표가 아닌 이유는 무엇입니까?

나는 '유클리드 거리는 높은 차원에서 좋은 거리가 아닙니다'라고 읽었습니다. 이 진술은 차원의 저주와 관련이 있다고 생각하지만 정확히 무엇입니까? 게다가 '높은 차원'이란 무엇입니까? 100 가지 기능을 갖춘 유클리드 거리를 사용하여 계층 적 클러스터링을 적용했습니다. 이 측정 항목을 사용하는 것이 '안전'한 기능은 몇 개입니까?

239 machine-learning clustering distance-functions metric high-dimensional

2

R의 lm () 출력 해석

R의 도움말 페이지는 그 숫자의 의미를 알고 있다고 가정하지만 그렇지 않습니다. 나는 모든 숫자를 실제로 직관적으로 이해하려고 노력하고 있습니다. 나는 출력을 게시하고 내가 찾은 것에 의견을 줄 것입니다. 내가 생각하는 것을 쓰면 실수가있을 수 있습니다. 주로 계수의 t- 값이 무엇을 의미하고 왜 잔류 표준 오차를 인쇄하는지 알고 싶습니다. Call: lm(formula …

234 r regression interpretation

6

가

Cosma Shalizi의 강의 노트 (특히 두 번째 강의 섹션 2.1.1)를 훑어 보았 으며 완전히 선형 인 모델을 사용하더라도 가 매우 낮아질 수 있음을 상기 시켰습니다 R2R2R^2. Shalizi의 예를 의역 : 당신이 모델이 있다고 가정 Y=aX+ϵY=aX+ϵY = aX + \epsilon , aaa 알려져있다. 그런 다음 이며 설명 된 분산 량은 따라서 …

233 regression r-squared

9

신뢰 구간과 신뢰할 수있는 구간의 차이점은 무엇입니까?

요리스 및 Srikant의 교환은 여기 신뢰 구간과 신뢰할 수있는 간격 사이의 차이에 대한 내 내부 설명이 올바른 것 인 경우에 (다시) 생각해 저를 얻었다. 차이점을 어떻게 설명하겠습니까?

229 bayesian confidence-interval frequentist credible-interval fiducial

5

AUC는 무엇을 의미하며 무엇입니까?

높고 낮게 검색되었으며 예측과 관련하여 AUC가 의미하거나 의미하는 바를 찾을 수 없었습니다.

228 classification prediction roc auc abbreviation

12

95 % 신뢰 구간 (CI)이 95 %의 평균을 포함 할 가능성을 의미하지 않는 이유는 무엇입니까?

여기에서 다양한 관련 질문을 통해 "95 % 신뢰 구간"이라고하는 "95 %"부분은 샘플링과 CI 계산 절차를 여러 번 정확하게 복제해야한다면 따라서 계산 된 CI의 95 %에 모집단 평균이 포함됩니다. 또한이 정의가하는 합의 인 것 같습니다 그렇지 않다는평균이 CI 내 어딘가에있을 확률이 95 %라는 단일 95 % CI로부터 결론을 내릴 수 있습니다. …

228 probability confidence-interval sampling mean population