통계 및 빅 데이터

3

RandomForest, DecisionTrees, NaiveBayes, SVM (커널 = 선형 및 rbf), KNN, LDA 및 XGBoost와 같은 많은 알고리즘을 사용하고 있습니다. SVM을 제외하고는 모두 매우 빠릅니다. 그때는 기능 확장이 더 빨리 작동해야한다는 것을 알게되었습니다. 그런 다음 다른 알고리즘에 대해서도 동일한 작업을 수행해야하는지 궁금해지기 시작했습니다.

17 machine-learning svm random-forest naive-bayes xgboost

3

교차 검증이 과적 합을 방지하기에 충분합니까?

데이터가 있고 교차 유효성 검사 (5 배라고 함)를 사용하여 분류 (이 데이터에서 임의의 포리스트라고 가정)를 실행하면 내 방법에 적합하지 않다고 결론 내릴 수 있습니까?

17 cross-validation overfitting

5

두 개의 독립적 인 균일 랜덤 변수 사이의 비율 분포

Supppse XXX 와 YYY 는 에서 균일하게 분포 된 표준 [0,1][0,1][0, 1]이며 독립적입니다. 의 PDF는 무엇 Z=Y/XZ=Y/XZ = Y / X입니까? 확률 이론 교과서의 대답은 fZ(z)=⎧⎩⎨1/2,1/(2z2),0,if 0≤z≤1if z>1otherwise.fZ(z)={1/2,if 0≤z≤11/(2z2),if z>10,otherwise. f_Z(z) = \begin{cases} 1/2, & \text{if } 0 \le z \le 1 \\ 1/(2z^2), & \text{if } z > 1 …

17 probability derived-distributions

3

유사 최대 우도 추정 (QMLE)의 아이디어와 직관

질문 : 유사 최대 가능성 추정 (QMLE; 의사 최대 가능성 추정, PMLE이라고도 함)의 아이디어와 직관은 무엇입니까? 실제 오차 분포가 가정 된 오차 분포와 일치하지 않을 때 추정기가 작동하는 이유는 무엇입니까? QMLE 의 Wikipedia 사이트 는 훌륭하지만 (간결하고 직관적이며 요점까지는) 좀 더 직관과 세부 사항, 아마도 그림을 사용할 수 있습니다. 다른 …

17 maximum-likelihood references intuition quasi-likelihood

2

공분산 행렬의 순위가 최대 이유는 무엇 입니까?

이 질문 에서 언급했듯이 공분산 행렬의 최대 순위는 n−1n−1n-1 이며 여기서 nnn 은 표본 크기이므로 공분산 행렬의 차원이 표본 크기와 같으면 단수입니다. 공분산 행렬 의 최대 순위 n 에서 111 을 빼는 이유를 이해할 수 없습니다 .nnn

17 covariance-matrix linear-algebra

1

임의의 포리스트에서 더 큰 % IncMSE가 더 좋거나 나쁩니 까?

내가 R에 (회귀) 임의 숲 모델을 구축하면, 호출은 rf$importance각 예측 변수에 대한 두 가지 조치로 날을 제공 %IncMSE하고 IncNodePurity. %IncMSE값이 큰 예측 변수가 %IncMSE값 이 큰 예측 변수보다 더 중요하다는 해석이 더 중요 합니까? 어때요 IncNodePurity?

17 r feature-selection random-forest

2

관찰 된 Fisher 정보가 정확히 사용되는 이유는 무엇입니까?

표준 최대 우도 설정 (iid 샘플 은 밀도 f y ( y | θ)Y1,…,YnY1,…,YnY_{1}, \ldots, Y_{n} 과 정확하게 지정된 모델의 경우에 피셔 정보가 주어진다))fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] 데이터를 생성 한 실제 밀도와 관련하여 기대되는 부분. 관찰 된 Fisher 정보를 읽었습니다. J^(θ)=−∂2θ2lnfy(θ)J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) (예상) 피셔 정보 계산에 …

17 maximum-likelihood fisher-information

1

귀무 가설 하에서 이항 검정을 시뮬레이션 할 때 p- 값의 불균일 분포

귀무 가설 하에서 p- 값 분포가 균일해야한다고 들었습니다. 그러나 MATLAB에서 이항 검정 시뮬레이션은 평균이 0.5보다 큰 균일 분포와 매우 다른 분포를 반환합니다 (이 경우 0.518). coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) …

17 matlab p-value binomial simulation uniform

1

Python의 Jenks Natural Breaks : 최적의 휴식 수를 찾는 방법은 무엇입니까?

Jenks Natural Breaks 알고리즘 의이 Python 구현 을 발견 했으며 Windows 7 컴퓨터에서 실행할 수 있습니다. 꽤 빠르며 지리 데이터의 크기를 고려하여 몇 시간 만에 중단 점을 찾습니다. 내 데이터에이 클러스터링 알고리즘을 사용하기 전에 (여기) 알고리즘을 사용하고있었습니다. KMeans와 관련된 문제는 최적의 K 값 매개 변수를 찾는 것이었지만 다른 K 값에 …

17 python clustering optimization

3

누적 분포 함수 (CDF)가 분포를 고유하게 정의하는 이유는 무엇입니까?

CDF는 독특하지만 PDF / PMF는 독특하지 않다는 말을 항상 들었습니다. 왜 그런가요? PDF / PMF가 고유하지 않은 예를들 수 있습니까?

17 probability distributions pdf cdf

1

반복 된 k- 폴드 교차 검증의 분산보고

나는 k- 폴드 교차 검증을 반복해서 사용했고 교차 검증의 다른 실행의 접힘에 걸쳐 총 평균으로 계산 된 평균 (예 : 감도, 특이성)을보고했습니다. 그러나 분산을 어떻게보고해야하는지 잘 모르겠습니다. 여기에서 반복 교차 검증에 대해 많은 질문을 찾았지만 반복 교차 검증 테스트에서 분산에 대한 질문에 명시 적으로 답하는 것은 없습니다. 총 편차는 1) …

17 cross-validation

1

Biplot / loading 플롯에서 PCA 구성 요소와 변수의 적절한 연관 측정은 무엇입니까?

FactoMineR측정 데이터 세트를 잠재 변수로 줄이기 위해 사용 하고 있습니다. 내가 해석하는 위의 변수 맵은 분명하지만, 변수의지도를 찾고 변수와 구성 요소 1 사이의 연관에 올 때 나는 혼란 스러워요, ddp그리고 cov매우 가까운 맵의 구성 요소이며, ddpAbs조금 더있다 떨어져. 그러나 이것은 상관 관계가 보여주는 것이 아닙니다. $Dim.1 $Dim.1$quanti correlation p.value jittAbs …

17 correlation pca factor-analysis association-measure biplot

2

Matthews 상관 계수 (MCC)를 해석하는 방법은 무엇입니까?

질문에 대한 대답 phi, Matthews 및 Pearson 상관 계수의 관계는 무엇입니까? 세 가지 계수 방법이 모두 동등 함을 보여줍니다. 나는 통계가 아니기 때문에 쉬운 질문이 될 것입니다. Matthews 논문 (www.sciencedirect.com/science/article/pii/0005279575901099)은 다음을 설명합니다. "A correlation of: C = 1 indicates perfect agreement, C = 0 is expected for a prediction no …

17 correlation interpretation pearson-r

2

능선 회귀 분석 표준화에 관한 질문

이봐, 난 능선 회귀를 사용하는 하나 또는 두 개의 논문을 찾았습니다 (농구 데이터). 능선 회귀 분석을 실행하면 항상 변수를 표준화하라는 지시를 받았지만, 능선은 척도 변형이기 때문에 간단하게 지시를 받았습니다. 내가 읽은이 논문은 변수를 표준화하지 않았기 때문에 조금 놀랍습니다. 그들은 또한 교차 검증을 통해 큰 람다 값 (2000-4000 수준)으로 끝났으며 이는 …

17 regression standardization

4

KNN은 차별적 인 학습 알고리즘입니까?

KNN은 차별적 인 학습 알고리즘 인 것 같지만이를 확인하는 온라인 출처를 찾지 못하는 것 같습니다. KNN은 차별적 인 학습 알고리즘입니까?

17 machine-learning classification k-nearest-neighbour