통계 및 빅 데이터

3

내가 알 수있는 한, Kohonen 스타일의 SOM은 2005 년경에 피크를 기록했으며 최근에는 호의를 얻지 못했습니다. 나는 SOM이 다른 방법에 의해 포섭되었거나 다른 방법과 동등한 것으로 입증되었다는 논문을 찾지 못했습니다 (어쨌든 더 높은 차원에서). 그러나 tSNE 및 기타 방법은 오늘날 Wikipedia 또는 SciKit Learn에서 요즘 훨씬 더 많은 잉크를 얻는 것처럼 …

33 clustering self-organizing-maps

8

데이터에서 특이 치를 제거해도 괜찮습니까?

데이터 집합에서 특이 치를 제거하는 방법을 찾고이 질문을 찾았습니다 . 그러나이 질문에 대한 의견과 답변 중 일부에서 사람들은 데이터에서 특이 치를 제거하는 것이 나쁜 습관이라고 언급했습니다. 내 데이터 세트에는 측정 오류로 인한 몇 가지 특이 치가 있습니다. 그들 중 일부가 아니더라도 데이터 포인트가 너무 많기 때문에 사례별로 확인하는 방법이 없습니다. …

33 outliers

3

심층 컨볼 루션 신경망에서 사전 훈련?

심층 컨볼 루션 신경망에서 사전 훈련에 관한 문헌을 본 사람이 있습니까? 오토 인코더 또는 제한된 boltzman 기계에서 감독되지 않은 사전 훈련 만 보았습니다.

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

1

Factor Analysis / PCA에서 회전을 수행 한 이유와 적절한 회전을 선택하는 직관적 인 이유는 무엇입니까?

내 질문 요인 분석 (또는 PCA의 구성 요소)에서 요인의 회전을 수행하는 직관적 인 이유는 무엇입니까? 변수가 최상위 구성 요소 (또는 요인)에 거의 똑같이로드되면 구성 요소를 구별하기가 어렵다는 것을 이해합니다. 따라서이 경우 회전을 사용하여 구성 요소를 더 잘 차별화 할 수 있습니다. 이 올바른지? 회전을하면 어떤 결과가 발생합니까? 이것은 어떤 영향을 …

33 pca interpretation factor-analysis dimensionality-reduction factor-rotation

2

R에서 Quartiles 찾기

R을 배우는 동안 통계 교과서를 통해 작업하고 있으며 다음 예제에서 걸림돌에 빠졌습니다. 보고 ?quantile난 후에 다음과 같이 R에서 이것을 재현하려고 시도했습니다. > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 …

33 r quantiles

2

Hosmer-Lemeshow 테스트에서 의 자유도

로지스틱 회귀 모형의 적합도 (GOF)에 대한 Hosmer-Lemeshow 검정 (HLT) 의 검정 통계량 은 다음과 같이 정의됩니다. 그런 다음 샘플은 deciles, 로 분할되며 , decile 당 다음 수량을 계산합니다.d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , 즉 decile 에서 관찰 된 긍정적 인 사례 수 ;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i …

33 regression logistic goodness-of-fit degrees-of-freedom hosmer-lemeshow-test

4

(왜) 과적 합 된 모델이 큰 계수를 갖는 경향이 있습니까?

변수에 대한 계수가 클수록 모델이 해당 차원에서 "스윙"할 수있는 능력이 커지고 잡음에 대한 기회가 증가한다고 생각합니다. 모델의 분산과 큰 계수 사이의 관계에 대한 합리적인 감각을 가지고 있다고 생각하지만 왜 과적 합 모델에서 발생 하는지에 대한 감각은 없습니다 . 이들이 과적 합의 증상이며 계수 수축이 모형의 분산을 줄이는 기술이라고 말하는 것이 …

33 regression variance linear-model bias regularization

2

Bhattacharyya 거리와 KL 발산의 차이점

다음 질문에 대한 직관적 인 설명을 찾고 있습니다. 통계 및 정보 이론에서 Bhattacharyya 거리와 KL 발산의 차이는 두 개의 이산 확률 분포의 차이를 측정하는 방법으로 무엇입니까? 그들은 전혀 관계가 없으며 두 확률 분포 사이의 거리를 완전히 다른 방식으로 측정합니까?

33 mathematical-statistics information-theory kullback-leibler bhattacharyya

7

(거대한) 트위스트가있는 생일 역설 : 파트너와 정확히 같은 생년월일을 공유 할 가능성이 있습니까?

나는 남자 친구와 같은 생년월일을 공유하지만, 같은 날도 같은 해에, 우리의 생년월일은 5 시간 정도 밖에되지 않습니다. 나는 나와 같은 날짜에 태어난 사람을 만날 확률이 상당히 높다는 것을 알고 있으며 생일 역설에 대해 읽은 적은 있지만 내 생일을 공유하는 소수의 사람들을 알고 있습니다. 같은 해를 고려하십시오. 우리는 그 확률에 대해 …

33 probability birthday-paradox

3

의 자릿수가 통계적으로 무작위입니까?

시퀀스를 관찰한다고 가정하십시오. 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, 0, 4, …

33 random-generation randomness

5

표본 공분산 행렬이 항상 대칭이고 양의 한정입니까?

표본의 공분산 행렬을 계산할 때 대칭적이고 양의 유한 행렬을 얻을 수 있습니까? 현재 내 문제에는 4600 개의 관측 벡터와 24 차원의 샘플이 있습니다.

33 sampling covariance

3

glm 모델에 대한 잔류 진단 플롯을 해석 하시겠습니까?

glm 모델의 잔차 그림을 해석하는 방법에 대한 지침을 찾고 있습니다. 특히 포아송, 음 이항, 이항 모델입니다. 모형이 "정확한"경우 이러한 도표에서 무엇을 기대할 수 있습니까? (예를 들어, 포아송 모델을 다룰 때 예측값이 증가함에 따라 분산이 커질 것으로 예상합니다) 답은 모델에 따라 다릅니다. 모든 참조 (또는 고려해야 할 일반적인 사항)가 도움이 될 …

33 generalized-linear-model diagnostic residuals

4

유한 분산과 무한 분산의 차이점은 무엇입니까

유한 분산과 무한 분산의 차이는 무엇입니까? 내 통계 지식은 다소 기본입니다. Wikipedia / Google은 그다지 도움이되지 않았습니다.

33 variance intuition partial-moments

2

p- 값 이해

p- 값을 설명하는 자료가 많이 있다는 것을 알고 있습니다. 그러나이 개념은 더 이상의 설명 없이는 확실하게 파악하기가 쉽지 않습니다. 다음은 Wikipedia의 p- 값 정의입니다. p- 값은 귀무 가설이 참이라고 가정 할 때 적어도 실제로 관측 된 것보다 극단적 인 검정 통계량을 얻을 확률입니다. ( http://en.wikipedia.org/wiki/P-value ) 내 첫 번째 질문 …

33 hypothesis-testing p-value interpretation

4

입자 물리학에서 증거를 수용하기위한“

뉴스 보도에 따르면 CERN 은 내일 bo 스 보손이 5 증거 로 실험적으로 탐지 되었다고 발표 할 것이라고 밝혔다. 그 기사에 따르면 :σσ\sigma 5 는 CMS와 ATLAS 탐지기에서보고있는 데이터가 단지 랜덤 노이즈가 아니라 확률이 99.99994 % 일뿐 아니라 0.00006 % 일 가능성이 있습니다. 5 는 과학적으로“발견”이라고 공식적으로 표시되는 데 필요한 …

33 hypothesis-testing p-value history