통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
(왜) 코오 넨 스타일의 SOM이 유리하지 않았습니까?
내가 알 수있는 한, Kohonen 스타일의 SOM은 2005 년경에 피크를 기록했으며 최근에는 호의를 얻지 못했습니다. 나는 SOM이 다른 방법에 의해 포섭되었거나 다른 방법과 동등한 것으로 입증되었다는 논문을 찾지 못했습니다 (어쨌든 더 높은 차원에서). 그러나 tSNE 및 기타 방법은 오늘날 Wikipedia 또는 SciKit Learn에서 요즘 훨씬 더 많은 잉크를 얻는 것처럼 …

8
데이터에서 특이 치를 제거해도 괜찮습니까?
데이터 집합에서 특이 치를 제거하는 방법을 찾고이 질문을 찾았습니다 . 그러나이 질문에 대한 의견과 답변 중 일부에서 사람들은 데이터에서 특이 치를 제거하는 것이 나쁜 습관이라고 언급했습니다. 내 데이터 세트에는 측정 오류로 인한 몇 가지 특이 치가 있습니다. 그들 중 일부가 아니더라도 데이터 포인트가 너무 많기 때문에 사례별로 확인하는 방법이 없습니다. …
33 outliers 


1
Factor Analysis / PCA에서 회전을 수행 한 이유와 적절한 회전을 선택하는 직관적 인 이유는 무엇입니까?
내 질문 요인 분석 (또는 PCA의 구성 요소)에서 요인의 회전을 수행하는 직관적 인 이유는 무엇입니까? 변수가 최상위 구성 요소 (또는 요인)에 거의 똑같이로드되면 구성 요소를 구별하기가 어렵다는 것을 이해합니다. 따라서이 경우 회전을 사용하여 구성 요소를 더 잘 차별화 할 수 있습니다. 이 올바른지? 회전을하면 어떤 결과가 발생합니까? 이것은 어떤 영향을 …

2
R에서 Quartiles 찾기
R을 배우는 동안 통계 교과서를 통해 작업하고 있으며 다음 예제에서 걸림돌에 빠졌습니다. 보고 ?quantile난 후에 다음과 같이 R에서 이것을 재현하려고 시도했습니다. > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 …
33 r  quantiles 

2
Hosmer-Lemeshow 테스트에서 의 자유도
로지스틱 회귀 모형의 적합도 (GOF)에 대한 Hosmer-Lemeshow 검정 (HLT) 의 검정 통계량 은 다음과 같이 정의됩니다. 그런 다음 샘플은 deciles, 로 분할되며 , decile 당 다음 수량을 계산합니다.d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , 즉 decile 에서 관찰 된 긍정적 인 사례 수 ;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i …

4
(왜) 과적 합 된 모델이 큰 계수를 갖는 경향이 있습니까?
변수에 대한 계수가 클수록 모델이 해당 차원에서 "스윙"할 수있는 능력이 커지고 잡음에 대한 기회가 증가한다고 생각합니다. 모델의 분산과 큰 계수 사이의 관계에 대한 합리적인 감각을 가지고 있다고 생각하지만 왜 과적 합 모델에서 발생 하는지에 대한 감각은 없습니다 . 이들이 과적 합의 증상이며 계수 수축이 모형의 분산을 줄이는 기술이라고 말하는 것이 …


7
(거대한) 트위스트가있는 생일 역설 : 파트너와 정확히 같은 생년월일을 공유 할 가능성이 있습니까?
나는 남자 친구와 같은 생년월일을 공유하지만, 같은 날도 같은 해에, 우리의 생년월일은 5 시간 정도 밖에되지 않습니다. 나는 나와 같은 날짜에 태어난 사람을 만날 확률이 상당히 높다는 것을 알고 있으며 생일 역설에 대해 읽은 적은 있지만 내 생일을 공유하는 소수의 사람들을 알고 있습니다. 같은 해를 고려하십시오. 우리는 그 확률에 대해 …



3
glm 모델에 대한 잔류 진단 플롯을 해석 하시겠습니까?
glm 모델의 잔차 그림을 해석하는 방법에 대한 지침을 찾고 있습니다. 특히 포아송, 음 이항, 이항 모델입니다. 모형이 "정확한"경우 이러한 도표에서 무엇을 기대할 수 있습니까? (예를 들어, 포아송 모델을 다룰 때 예측값이 증가함에 따라 분산이 커질 것으로 예상합니다) 답은 모델에 따라 다릅니다. 모든 참조 (또는 고려해야 할 일반적인 사항)가 도움이 될 …


2
p- 값 이해
p- 값을 설명하는 자료가 많이 있다는 것을 알고 있습니다. 그러나이 개념은 더 이상의 설명 없이는 확실하게 파악하기가 쉽지 않습니다. 다음은 Wikipedia의 p- 값 정의입니다. p- 값은 귀무 가설이 참이라고 가정 할 때 적어도 실제로 관측 된 것보다 극단적 인 검정 통계량을 얻을 확률입니다. ( http://en.wikipedia.org/wiki/P-value ) 내 첫 번째 질문 …

4
입자 물리학에서 증거를 수용하기위한“
뉴스 보도에 따르면 CERN 은 내일 bo 스 보손이 5 증거 로 실험적으로 탐지 되었다고 발표 할 것이라고 밝혔다. 그 기사에 따르면 :σσ\sigma 5 는 CMS와 ATLAS 탐지기에서보고있는 데이터가 단지 랜덤 노이즈가 아니라 확률이 99.99994 % 일뿐 아니라 0.00006 % 일 가능성이 있습니다. 5 는 과학적으로“발견”이라고 공식적으로 표시되는 데 필요한 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.