통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


15
비모수 통계보다 왜 매개 변수 통계가 선호됩니까?
누군가 가설 검정 또는 회귀 분석을 위해 비모수 통계 방법 대신 모수를 선택하는 이유를 설명해 줄 수 있습니까? 당신 때문에 내 마음, 그것은, 래프팅 가서 비 방수 시계를 선택처럼 할 수 는 젖지. 모든 경우에 작동하는 도구를 사용하지 않는 이유는 무엇입니까?


8
테스트 데이터가 교육 데이터로 누출되지 않도록하려면 어떻게해야합니까?
예측 모델을 구축하는 사람이 있지만 적절한 통계 또는 기계 학습 원칙에 정통한 사람이 아니라고 가정합니다. 어쩌면 우리는 그 사람이 배우면서 도움을 줄 수도 있고, 또는 그 사람이 최소한의 지식이 필요한 소프트웨어 패키지를 사용하고있을 수도 있습니다. 이제이 사람은 실제 테스트가 샘플 외부 데이터 의 정확도 (또는 다른 메트릭)에서 온 것임을 잘 …

9
회귀 변수 선택에 올가미를 사용할 때의 단점은 무엇입니까?
내가 아는 것에서 변수 선택에 올가미를 사용하면 상관 된 입력 문제를 처리합니다. 또한 최소 각도 회귀와 같으므로 계산 속도가 느리지 않습니다. 그러나 많은 사람들 (예 : 생체 통계를하는 사람들)은 여전히 ​​단계별 또는 단계적 변수 선택을 선호합니다. 올가미를 사용하는 것이 유리하지 않은 실질적인 단점이 있습니까?


5
k- 평균 군집화와 PCA의 관계는 무엇입니까?
클러스터링 알고리즘 (예 : k- 평균) 전에 PCA (주성분 분석)를 적용하는 것이 일반적입니다. 실제로 클러스터링 결과를 향상시키는 것으로 여겨집니다 (소음 감소). 그러나 저는 PCA와 k- 평균의 관계에 대한 비교적이고 심층적 인 연구에 관심이 있습니다. 예를 들어 Chris Ding과 Xiaofeng He (2004 )는 Principal Component Analysis를 통한 K-means Clustering 은 "주요 …

3
대각선에 상수를 추가하여 릿지 추정치가 OLS보다 나은 이유는 무엇입니까?
나는 능선 회귀 추정치는 것을 이해 의 크기에 잔류 제곱의 합 페널티 킥을 최소화βββ\betaββ\beta βr i d g e= ( λ I디+ X'엑스)− 1엑스'와이= 아르 기민[ RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] 그러나, 나는 완전히 그 사실의 중요성을 이해하지 못하는 β산등성이βridge\beta_\text{ridge} 다릅니다 βOLSβOLS\beta_\text{OLS} 만의 …

12
양측 테스트… 나는 단지 확신하지 못한다. 점은 무엇인가?
다음 발췌 부분은 다음과 같습니다. 단측 및 양측 테스트의 차이점은 무엇입니까? UCLA의 통계 도움말 사이트에서 ... 다른 방향으로 영향을 미치지 않은 결과를 고려하십시오. 기존 약물에 비해 개선 된 것으로 생각되는 새로운 약물을 개발했다고 상상해보십시오. 개선 사항을 감지하는 능력을 최대화하기 위해 단측 테스트를 선택하십시오. 그렇게하면 새로운 약이 기존 약보다 효과가 적은지 …

13
대규모 연구에서 귀무 가설을 기각하지 못하면 귀무에 대한 증거가 아닌가?
귀무 가설 유의성 검정의 기본 한계는 연구원이 귀무에 찬성하여 증거를 수집 할 수 없다는 것입니다 ( 출처 ) 이 주장이 여러 곳에서 반복되는 것을 보았지만 이에 대한 정당성을 찾을 수 없습니다. 대규모 연구를 수행 하고 귀무 가설에 대한 통계적으로 유의미한 증거를 찾지 못하면 귀무 가설 에 대한 증거 가 아닌가?

7
비용 함수 평가가 느린 경우 최적화
그라디언트 디센트 및 기타 여러 방법은 비용 함수에서 국소 최소값을 찾는 데 유용합니다. 수치 적이든 분석적 으로든 각 시점에서 비용 함수를 신속하게 평가할 수있을 때 효율적입니다. 이상한 상황 인 것 같습니다. 내 비용 함수의 각 평가는 비싸다. 지상 진실 표면에 대해 3D 표면을 최소화하는 일련의 매개 변수를 찾으려고합니다. 매개 변수를 …

3
xkcd 젤리 빈 만화를 설명하십시오.
나는 20 번의 총 테스트 중 중 한 번이 실행되므로 20 번의 테스트 중 하나에서 결과가 중요하다고 잘못 가정합니다 ( 0.05 = 1 / 20 ).p&lt;0.05p&lt;0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd 젤리 빈 만화- "중요한" 제목 : 중요 호버 텍스트 : " '그러므로 우리는 녹색 연구를 다시했는데 관련이 없었습니다.

6
잦은 바이에른 토론은 어디로 갔습니까?
통계의 세계는 잦은 사람들과 베이지안으로 나뉘어져 있습니다. 요즘에는 모두가 조금씩하는 것처럼 보입니다. 어떻게 이럴 수있어? 다른 접근 방식이 다른 문제에 적합하다면 왜 통계의 창시자가 이것을 보지 못했습니까? 또는, Frequentists가 토론에서 이기고 진정한 주관적인 베이지안이 의사 결정 이론으로 넘어 갔습니까?

2
ZCA 미백과 PCA 미백의 차이점은 무엇입니까?
ZCA 미백과 일반 미백 (주요 구성 요소를 PCA 고유 값의 제곱근으로 나눔)에 대해 혼란 스럽습니다. 내가 아는 한, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, 여기서 는 PCA 고유 벡터입니다.UU\mathbf U ZCA 미백의 용도는 무엇입니까? 일반 미백과 ZCA 미백의 차이점은 무엇입니까?


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.