통계 및 빅 데이터

5

동일한 분포에서 도출 된 충분히 많은 관측치의 중앙값을 계산하면 중앙값의 중앙값 분포가 정규 분포에 근사 할 것입니까? 내 이해는 이것이 많은 수의 샘플을 사용하면 사실이지만 중간 값에서도 사실이라는 것입니다. 그렇지 않은 경우 샘플 중앙값의 기본 분포는 무엇입니까?

54 normal-distribution mathematical-statistics sampling median central-limit-theorem

2

사후 테스트 전에 글로벌 테스트가 필요합니까?

분산 분석 후 사후 테스트는 분산 분석 자체가 중요한 경우에만 사용할 수 있다고 들었습니다. 그러나 사후 테스트 에서는 전역 유형 I 오류율을 5 %로 유지하기 위해 조정합니다 .ppp 그렇다면 왜 글로벌 테스트가 먼저 필요한가? 글로벌 테스트가 필요하지 않은 경우 "사후"라는 용어가 올바른가? 아니면 여러 종류의 사후 테스트가 있습니까? 일부는 중요한 …

54 anova statistical-significance post-hoc

9

통계에 적용되는 선형 대수에 대한 참조 도서?

나는 R에서 약간 일하고 있었고 PCA, SVD, QR 분해 및 많은 선형 대수 결과 (가중 회귀 추정 등을 조사 할 때)와 같은 것들에 직면 했으므로 누군가가 좋은 것에 대한 권장 사항이 있는지 알고 싶었습니다. 너무 이론적이지는 않지만 수학적으로 엄격하며 이러한 모든 주제를 다루는 포괄적 인 선형 대수 책.

54 references matrix linear-algebra weighted-regression

10

올바른 클러스터 수를 결정하는 방법은 무엇입니까?

우리는 클러스터 센터를 찾고 k-means 클러스터링 에서 k 개의 다른 클러스터 빈에 포인트를 할당합니다.이 클러스터 는 매우 잘 알려진 알고리즘이며 거의 모든 기계 학습 패키지에서 찾을 수 있습니다. 그러나 내 생각에 빠지고 가장 중요한 부분은 올바른 k를 선택하는 것입니다. 가장 좋은 가치는 무엇입니까? 그리고, 무엇을 의미 최선 ? 나는 여기 …

54 clustering k-means

3

표준 편차의 표준 편차

데이터의 정규성을 가정 할 수있는 경우 표준 편차의 표준 편차 추정치는 무엇입니까?

54 estimation standard-deviation normality-assumption

5

다중 비교를 위해 다중 회귀 분석에서 p- 값을 조정하는 것이 좋은 생각입니까?

귀하가 서비스에 대한 관련 수요 예측자를 찾으려고하는 사회 과학 연구원 / 경제학자라고 가정 해 봅시다. 수요를 설명하는 2 개의 결과 / 종속 변수가 있습니다 (서비스 예 / 아니오 및 횟수 사용). 이론적으로 수요를 설명 할 수있는 10 개의 예측 변수 / 독립 변수가 있습니다 (예 : 연령, 성별, 소득, 가격, …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

6

수학자 통계 소개

이미 잘 정통한 수학자에 대한 통계에 대한 좋은 소개는 무엇입니까? 질문에 대한 두 가지 뚜렷한 동기가 있으며, 다른 제안으로 이어질 수 있습니다. 나는 아기가 생각하는 많은 문제의 원인이되는 통계 동기를 더 잘 이해하고 싶습니다. 수학적 추측을하기 위해 때때로 몬테카를로 시뮬레이션 결과를 더 잘 해석하는 방법을 알고 싶습니다. 가장 좋은 방법은 …

54 references

7

수많은 기능 (> 10K)을위한 최고의 PCA 알고리즘?

이전에 StackOverflow에서 이것을 요청했지만 SO에 대한 답변을 얻지 못한 경우 여기에서 더 적절할 것 같습니다. 통계와 프로그래밍의 교차점에 있습니다. PCA (Principal Component Analysis)를 수행하려면 코드를 작성해야합니다. 나는 잘 알려진 알고리즘을 탐색 하고이 알고리즘을 구현 했는데 NIPALS 알고리즘과 동일합니다. 처음 2-3 개의 주요 구성 요소를 찾는 데 효과적이지만 수백에서 수천 번 …

54 pca algorithms model-evaluation high-dimensional

19

수학 통계 비디오

수학 통계에 관한 교과서에 대한 이전의 권장 사항 수학 통계에 관한 좋은 온라인 비디오 강의 를 아는 사람이 있습니까? 내가 찾은 가장 가까운 것은 다음과 같습니다. 기계 학습 계량 경제학 업데이트 : 아래에 언급 된 여러 제안은 좋은 통계-101 유형 비디오입니다. 그러나 통계에 대한 엄격한 수학적 표현을 제공하는 비디오가 있는지 …

54 mathematical-statistics references

2

글로벌 최대 풀링 계층이란 무엇이며 최대 풀링 계층에 비해 어떤 이점이 있습니까?

누군가 글로벌 최대 풀링 계층 이 무엇인지 , 왜 신경망을 훈련시키는 데 왜 그리고 언제 사용하는지 설명 할 수 있습니까 ? 일반 최대 풀링 레이어보다 이점이 있습니까?

54 neural-networks conv-neural-network pooling

10

홀드 아웃 유효성 검사 및 교차 유효성 검사

나에게 홀드 아웃 유효성 검사는 쓸모없는 것 같습니다. 즉, 원래 데이터 세트를 두 부분으로 나누고 (훈련 및 테스트) 테스트 점수를 일반화 척도로 사용하는 것은 다소 쓸모가 없습니다. K- 폴드 교차 검증은 일반화에 대해 더 나은 근사치를 제공하는 것으로 보입니다 (모든 지점에서 학습하고 테스트하므로). 그렇다면 표준 보류 검증을 사용하는 이유는 무엇입니까? …

54 machine-learning cross-validation validation

4

공분산과 독립?

나는 교과서에서 이 X와 Y가 독립적이라는 것을 보증하지 않는다고 읽었습니다 . 그러나 만약 그들이 독립적이라면, 그들의 공분산은 0이어야합니다. 누군가가 하나를 제공 할 수 있습니까?코브 ( X, Y) = 0코브(엑스,와이)=0\text{cov}(X,Y)=0

54 independence covariance

5

통계 학습에서 iid 가정의 중요성

통계적 학습, 내재적으로 또는 명시 적으로, 하나는 반드시 학습 집합에 있다고 가정 으로 구성되는 N 입력 / 응답 튜플 ( X I , Y I ) 되어 독립적 같은 조인트 분포로부터 인출 P ( X를 , Y ) 과D={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( …

54 machine-learning cross-validation non-independent iid

3

계층화 된 교차 검증 이해

계층화 된 교차 검증 과 교차 검증 의 차이점은 무엇입니까 ? 위키피디아의 말 : 에서는 성층 K 배 교차 검증 평균 응답 값의 모든 폴드 대략 동일하도록, 주름이 선택된다. 이분법 적 분류의 경우, 이는 각 접힘이 두 유형의 클래스 레이블과 거의 동일한 비율을 포함한다는 것을 의미합니다. 그러나 나는 여전히 혼란 …

54 cross-validation stratification

3

다변량 선형 회귀 vs 신경망?

경우에 따라 다변량 선형 회귀 분석을 통해 신경망과 유사한 결과를 얻을 수 있으며 다변량 선형 회귀 분석이 매우 빠르고 쉽습니다. 어떤 상황에서 신경망은 다변량 선형 회귀보다 더 나은 결과를 제공 할 수 있습니까?

53 regression multiple-regression neural-networks