통계 및 빅 데이터

1

간단한 로지스틱 회귀 모델은 어떻게 MNIST에서 92 %의 분류 정확도를 달성합니까?

MNIST 데이터 세트의 모든 이미지가 비슷한 스케일로 중심을 맞추고 회전하지 않고 위로 향하더라도 선형 모델이 이러한 높은 분류 정확도를 달성하는 방법을 의아해하는 중요한 필기 변형이 있습니다. 내가 볼 수있는 한, 상당한 필기 변형을 고려할 때, 숫자는 784 차원 공간에서 선형으로 분리 할 수 없어야합니다. 즉, 서로 다른 숫자를 분리하는 약간 …

64 logistic image-processing

3

일반화 된 추정 방정식과 혼합 효과 모델을 언제 사용해야합니까?

나는 세로 데이터로 한동안 혼합 효과 모델을 아주 행복하게 사용했습니다. 나는 lmer에 AR 관계를 적용 할 수 있기를 바랍니다 (나는 이것을 할 수없는 것이 옳다고 생각합니까?) 방금 일반 추정 방정식 (GEE)을 보았으며 ME 모델보다 훨씬 더 많은 유연성을 제공하는 것 같습니다. 지나치게 일반적인 질문을 할 위험이있는 경우, 다른 작업에 더 …

63 mixed-model gee

9

베이지안 접근 방식이 더 단순하고 더 실용적이거나 더 편리한 상황 목록

베이지안과 잦은 사람들 사이의 통계 내에서 많은 논쟁이있었습니다. 나는 일반적으로 이것들이 다소 터무니없는 것을 발견합니다 (그러나 그것이 죽었다고 생각하지만). 다른 한편으로, 나는 종종 빈번한 분석을 수행하는 것이 더 편리하고 때로는 베이지안 분석을 실행하는 것이 더 쉽다고 말하면서 문제에 대해 실질적으로 실용적인 견해를 가진 여러 사람들을 만났습니다. 나는이 관점이 실용적이고 상쾌하다는 …

63 bayesian frequentist

10

탈 레브와 검은 백조

Taleb의 저서 "The Black Swan"은 몇 년 전에 나왔을 때 New York Times의 베스트셀러였습니다. 이 책은 현재 제 2 판입니다. 탈 레브는 JSM (연간 통계 회의)에서 통계 학자들과 만난 후 통계에 대한 비판을 다소 철회했다. 그러나이 책의 통계는 통계가 정규 분포와 매우 드문 사건에 의존하기 때문에 그다지 유용하지 않다는 것입니다. …

63 extreme-value rare-events

3

귀무 가설 유의성 검정에 대한 인수를 포함하는 참고 자료?

지난 몇 년 동안 나는 과학에서 귀무 가설 유의성 검정의 사용에 반대하는 여러 논문을 읽었지만 지속적인 목록을 유지하지는 않았다. 동료가 최근에 그러한 목록을 요청했기 때문에 여기있는 모든 사람에게 목록을 작성하도록 요청한다고 생각했습니다. 일을 시작하려면 여기까지 내가 가진 것입니다 : Johansson (2011) "불가능 함 : p- 값, 증거 및 가능성." Haller …

63 hypothesis-testing statistical-significance references p-value

8

PCA 다음에 회전 (varimax 등)이 여전히 PCA입니까?

나는 내 경험에 R.에서 SPSS에서 (PCA를 사용하여) 몇 가지 조사를 재현하려 한 principal() 기능 패키지는 psych듯했으나, 유일한 기능이었다 (또는 내 기억이 바로 내를 제공하는 경우에 죽은) 출력에 맞게. SPSS에서와 동일한 결과를 얻으려면 parameter를 사용해야했습니다 principal(..., rotate = "varimax"). 나는 논문이 PCA를 어떻게 수행했는지에 대해 이야기하는 것을 보았지만 SPSS의 출력과 회전 …

63 r spss pca factor-analysis factor-rotation

5

기호 / 수를 최소한으로 사용하여 다중 회귀와 다변량 회귀의 차이점을 설명

다변량 및 다변량 회귀 분석은 실제로 다른가? 무엇 이며 어떻게라도 변량은?

63 regression multiple-regression terminology multivariate-regression

3

신경망과 딥 믿음 네트워크의 차이점은 무엇입니까?

사람들이 '깊은 믿음'네트워크를 언급 할 때 이것이 기본적으로 신경망이지만 매우 크다는 인상을 받고 있습니다. 이것이 정확합니까? 아니면 믿음 네트워크가 알고리즘 자체가 다르다는 것을 의미합니까 (즉, 피드 포워드 신경망은 없지만 피드백 루프가있는 것)?

62 machine-learning neural-networks deep-learning deep-belief-networks

6

k- 평균 군집 알고리즘이 유클리드 거리 측정법 만 사용하는 이유는 무엇입니까?

k- 평균 알고리즘이 거리 메트릭으로 코사인 (비 유사) 유사성을 사용하지 않고 유클리드 표준 만 사용할 수있는 효율성 또는 기능성 측면에서 특정 목적이 있습니까? 일반적으로 유클리드 이외의 다른 거리를 고려하거나 사용하는 경우 K- 평균 방법이 준수되고 정확합니까? [@ttnphns 추가. 문제는 두 가지입니다. "(비) 유클리드 거리"는 두 데이터 포인트 사이의 거리 또는 …

62 clustering k-means distance-functions euclidean

3

randomForest :: getTree ()에서 실제로 샘플 트리를 그리는 방법은 무엇입니까? [닫은]

누구나 실제로 몇 가지 샘플 트리 를 플롯하는 방법에 대한 라이브러리 또는 코드 제안이 있습니다. getTree(rfobj, k, labelVar=TRUE) (예를 들어, 당신 이이 작업을 수행하지 않아야한다는 것을 알고 있습니다. RF는 블랙 박스 등입니다.) 시각적으로 나무가 온전한 지 확인하여 변수가 반 직관적으로 작동하는지 확인하고, 조정 / 조합 / 분산 / 변환, 확인이 …

62 r data-visualization random-forest cart

4

불확실성의 부트 스트랩 추정에 관한 가정

불확실성 추정치를 얻는 데 부트 스트랩의 유용성을 높이 평가하지만, 항상 염려하는 것은 그 추정치에 해당하는 분포가 표본에 의해 정의 된 분포라는 것입니다. 일반적으로 표본 주파수가 근본 분포와 정확히 같다고 생각하는 것은 나쁜 생각 인 것 같습니다. 왜 표본 주파수가 근본 분포를 정의하는 분포를 기반으로 불확실성 추정값을 도출하는 것이 바람직한가? 다른 …

62 bootstrap uncertainty

8

A와 B가 C와 상관 관계가있는 경우 왜 A와 B가 반드시 상관 관계는 없습니까?

나는 그것이 경험적으로 알고 있습니다. 나는이 수수께끼에 빠지는 모델을 방금 개발했습니다. 또한 반드시 예 / 아니오라고 생각하지는 않습니다. A와 B가 모두 C와 상관되어 있으면 A와 B의 상관 관계에 영향을 줄 수 있지만이 의미는 약할 수 있습니다. 그것은 단지 부호 방향 일 수도 있고 다른 것도 아닐 수도 있습니다. 이것이 의미하는 …

62 correlation cross-correlation

8

베이지안 : 우도 함수의 노예?

Larry Wasserman 교수는 자신의 저서 인 "All of Statistics"에서 다음과 같은 예를 제시합니다 (188 페이지 11.10). f ( x ) = c 와 같은 밀도 가지고 있다고 가정하자에프ff -여기서 g 는알려진(음이 아닌, 적분 가능) 함수이며 정규화 상수 c > 0 은알 수 없습니다.에프( x ) = c지( x )f(x)=cg(x)f(x)=c\,g(x)지ggc > …

62 bayesian mathematical-statistics

3

로지스틱 회귀 분석에서 잔차는 무엇을 의미합니까?

이 질문에 답하면서 John Christie는 로지스틱 회귀 모형의 적합도를 잔차를 평가하여 평가해야한다고 제안했습니다. OLS의 잔차를 해석하는 방법에 익숙합니다. DV와 같은 척도에 있으며 모형에서 예측 한 y와 y의 차이가 매우 명확합니다. 그러나 로지스틱 회귀 분석의 경우 과거에는 로지스틱 회귀 분석에서 잔차가 무엇을 의미하는지 알지 못했기 때문에 일반적으로 AIC와 같은 모형 적합도 …

62 r logistic generalized-linear-model residuals aic

10

불연속 데이터와 연속 데이터의 차이점은 무엇입니까?

62 continuous-data discrete-data