통계 및 빅 데이터

4

다중 회귀 분석을 수행 할 때 통계 소프트웨어에서 특이 치로 플래그가 지정된 사례를 삭제할지 여부

다중 회귀 분석을 수행 중이며 데이터의 특이 값을 삭제할지 확실하지 않습니다. 내가 걱정하는 데이터는 SPSS 상자 그림에서 "원"으로 표시되지만 별표는 없습니다 (그들이 '나쁘지 않다'고 생각하게 만듭니다). 우려되는 사례는 출력의 "casewise diagnostics"표 아래에 표시되므로 이러한 사례를 삭제해야합니까?

23 regression outliers

2

공간 통계 모델 : CAR vs SAR

자동 상관 지리 참조 항공 데이터를 모델링 할 때 동시 자동 회귀 모델보다 조건부 자기 회귀 모델을 선호하는 경우는 언제입니까?

23 modeling spatial

2

PCA와 점근 적 PCA의 차이점은 무엇입니까?

1986 년 과 1988 년 두 논문에서 Connor와 Korajczyk는 자산 수익을 모델링하는 방법을 제안했습니다. 이러한 시계열은 일반적으로 기간 관측치보다 많은 자산을 가지므로 자산 수익률의 단면 공분산에 대해 PCA를 수행 할 것을 제안했습니다. 그들은이 방법을 Asymptotic Principal Component Analysis (APCA)라고 부릅니다. 관객은 PCA의 점근 적 특성을 즉시 생각하기 때문에 다소 혼란 …

23 pca econometrics

2

통계 법의학 : 벤 포드와 그 너머

제 3자가 생산 한 과학 저작물에서 사기, 이상, 퍼징 등을 탐지하기위한 광범위한 방법은 무엇입니까? (최근 Marc Hauser 사건 으로이 사실을 묻게되었습니다 .) 일반적으로 선거 및 회계 사기의 경우 벤 포드 법의 일부 변형 이 인용됩니다. 나는 이것이 적용 할 수 없습니다 확인하는 방법입니다 예 : 벤 포드의 법칙이 약 유니폼을 …

23 meta-analysis fraud

5

더 나은 예측 (예 : CV) 성능을 가진 분류 트리의 대안?

더 나은 예측력을 얻을 수있는 분류 트리의 대안을 찾고 있습니다. 내가 다루고있는 데이터에는 설명 변수와 설명 변수 모두에 대한 요소가 있습니다. 이 맥락에서 임의의 숲과 신경망을 발견 한 것을 기억합니다. 전에는 시도한 적이 없지만 그러한 모델링 작업에 대한 또 다른 좋은 후보가 있습니까 (R의 경우)?

23 r machine-learning classification cart

2

이들 간의 상관 관계에 따른 클러스터링 변수

질문 : 큰 상관 관계 행렬이 있습니다. 개별 상관 관계를 클러스터링하는 대신 서로 상관 관계에 따라 변수를 클러스터링하려고합니다. 즉, 변수 A와 변수 B가 변수 C와 Z의 상관 관계가 비슷한 경우 A와 B는 동일한 클러스터의 일부 여야합니다. 이에 대한 좋은 실제 사례는 다른 자산 클래스입니다. 자산 내 클래스 상관 관계는 자산 …

23 correlation clustering correlation-matrix

9

카운트 <20 인 카운트 데이터의 시계열

나는 최근 결핵 클리닉에서 일하기 시작했습니다. 우리는 현재 치료중인 결핵 사례 수, 시행되는 검사 횟수 등을 논의하기 위해 정기적으로 회의를합니다.이 수치를 모델링하기 시작하여 무언가가 비정상적인지 아닌지 추측하지 않습니다. 불행히도, 시계열에 대한 교육은 거의 없었으며 대부분의 노출은 매우 지속적인 데이터 (주가) 또는 매우 많은 수의 인플루엔자 모델에 노출되었습니다. 그러나 우리는 다음과 …

23 r time-series poisson-distribution count-data epidemiology

5

이 "순진한"셔플 링 알고리즘에 어떤 문제가 있습니까?

이것은 배열을 무작위로 섞는 것에 대한 Stackoverflow 질문에 대한 후속 조치 입니다. "순진한"임시 구현에 의존하기보다는 배열을 섞기 위해 사용해야하는 확립 된 알고리즘 (예 : Knuth-Fisher-Yates Shuffle )이 있습니다. 이제 내 순진 알고리즘이 손상되었다는 것을 증명 (또는 반증)하는 데 관심이 있습니다 (같은 확률로 가능한 모든 순열을 생성하지는 않음). 알고리즘은 다음과 같습니다. …

23 combinatorics randomness

1

xgboost 알고리즘에서 min_child_weight에 대한 설명

xgboost에서 min_child_weight 매개 변수 의 정의 는 다음과 같습니다. 어린이에게 필요한 인스턴스 가중치 (헤 시안)의 최소 합계. 트리 분할 단계에서 인스턴스 가중치의 합계가 min_child_weight보다 작은 리프 노드가 생성되면 빌드 프로세스는 추가 분할을 포기합니다. 선형 회귀 모드에서 이는 단순히 각 노드에 있어야하는 최소 인스턴스 수에 해당합니다. 알고리즘이 클수록 더 보수적입니다. 나는 …

23 machine-learning xgboost hessian

1

주의 메커니즘은 정확히 무엇입니까?

주의 메커니즘은 지난 몇 년 동안 다양한 딥 러닝 논문에서 사용되었습니다. Open AI의 연구 책임자 인 Ilya Sutskever는 다음과 같이 열정적으로 찬사를 보냈습니다 : https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Purdue University의 Eugenio Culurciello는 RNN과 LSTM을 순전히주의 기반 신경망에 찬성하여 포기해야한다고 주장했습니다. https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 이 과장 보인다, 그러나 순전히 관심 기반 모델은 시퀀스 모델링 작업에 아주 …

23 time-series deep-learning lstm rnn attention

1

해밀턴 몬테카를로 vs. 순차 몬테카를로

이 두 가지 MCMC 체계의 다른 응용 분야뿐만 아니라 상대적인 장점과 단점을 느끼려고합니다. 언제 그리고 왜 사용합니까? 하나는 실패하지만 다른 하나는 실패 할 수있는 경우 (예 : HMC는 적용 가능하지만 SMC는 적용되지 않는 위치 및 그 반대) 하나는, 부여 아주 순진, (즉, 일반적으로 하나이며 다른에 비해 하나의 방법에 유틸리티의 측정을 …

23 mcmc random-walk particle-filter probabilistic-programming hmc

2

왜 두 가지 로지스틱 손실 공식 / 표기가 있습니까?

나는 두 가지 유형의 물류 손실 공식을 보았다. 우리는 그것들이 동일하다는 것을 쉽게 보여줄 수 있습니다. 유일한 차이점은 레이블 의 정의입니다 .yyy 공식화 / 표기법 1, :y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) 여기서 에서 로지스틱 함수는 실수 \ beta ^ T x 를 0.1 간격으로 매핑 합니다. βTxp=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T …

23 logistic generalized-linear-model notation loss-functions

3

높은 는 쓸모 없습니까?

이 질문은 교차 검증에서 답변 될 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 3 년 전에 마이그레이션 되었습니다 . 통계에서 우리는 선형 회귀를 시작합니다. 일반적으로, 우리는 가 높을수록 좋다는 것을 알고 있지만, 높은 R ^ 2 가 쓸모없는 모델 이되는 시나리오가 있습니까?아르 자형2아르 자형2R^2아르 자형2아르 자형2R^2

23 regression r-squared

2

최고 밀도 영역 (HDR)이란 무엇입니까?

에서 통계적 추론 , 문제 9.6b하는 "최고 밀도 지역 (HDR)는"언급한다. 그러나이 책에서이 용어의 정의를 찾지 못했습니다. 유사한 용어는 HPD (Highest Posterior Density)입니다. 그러나 9.6b는 이전에 대해 언급하지 않았기 때문에이 맥락에 맞지 않습니다. 그리고 제안 된 솔루션 에서 "명확하게 는 HDR"이라고 말합니다.c ( y)c(y)c(y) 아니면 HDR이 PDF의 모드를 포함하는 영역입니까? 최고 …

23 confidence-interval estimation definition credible-interval highest-density-region

3

좌표 대 경사 하강

Coordinate Descent 및 Gradient Descent 두 알고리즘의 다양한 사용 사례가 무엇인지 궁금합니다 . 좌표 하강은 평활하지 않은 함수에 문제가 있지만 SVM 및 LASSO와 같은 널리 사용되는 알고리즘에 사용됩니다. 그러나 그라디언트 디센트는 특히 ANN의 부활과 다른 많은 기계 학습 작업에 더 널리 사용되는 것으로 생각됩니다. 내 질문은 : 어떤 유형의 문제가 …

23 optimization gradient-descent