통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
SVM 외에 어떤 알고리즘에 기능 확장이 필요합니까?
RandomForest, DecisionTrees, NaiveBayes, SVM (커널 = 선형 및 rbf), KNN, LDA 및 XGBoost와 같은 많은 알고리즘을 사용하고 있습니다. SVM을 제외하고는 모두 매우 빠릅니다. 그때는 기능 확장이 더 빨리 작동해야한다는 것을 알게되었습니다. 그런 다음 다른 알고리즘에 대해서도 동일한 작업을 수행해야하는지 궁금해지기 시작했습니다.


5
두 개의 독립적 인 균일 랜덤 변수 사이의 비율 분포
Supppse XXX 와 YYY 는 에서 균일하게 분포 된 표준 [0,1][0,1][0, 1]이며 독립적입니다. 의 PDF는 무엇 Z=Y/XZ=Y/XZ = Y / X입니까? 확률 이론 교과서의 대답은 fZ(z)=⎧⎩⎨1/2,1/(2z2),0,if 0≤z≤1if z>1otherwise.fZ(z)={1/2,if 0≤z≤11/(2z2),if z>10,otherwise. f_Z(z) = \begin{cases} 1/2, & \text{if } 0 \le z \le 1 \\ 1/(2z^2), & \text{if } z > 1 …

3
유사 최대 우도 추정 (QMLE)의 아이디어와 직관
질문 : 유사 최대 가능성 추정 (QMLE; 의사 최대 가능성 추정, PMLE이라고도 함)의 아이디어와 직관은 무엇입니까? 실제 오차 분포가 가정 된 오차 분포와 일치하지 않을 때 추정기가 작동하는 이유는 무엇입니까? QMLE 의 Wikipedia 사이트 는 훌륭하지만 (간결하고 직관적이며 요점까지는) 좀 더 직관과 세부 사항, 아마도 그림을 사용할 수 있습니다. 다른 …



2
관찰 된 Fisher 정보가 정확히 사용되는 이유는 무엇입니까?
표준 최대 우도 설정 (iid 샘플 은 밀도 f y ( y | θ)Y1,…,YnY1,…,YnY_{1}, \ldots, Y_{n} 과 정확하게 지정된 모델의 경우에 피셔 정보가 주어진다))fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] 데이터를 생성 한 실제 밀도와 관련하여 기대되는 부분. 관찰 된 Fisher 정보를 읽었습니다. J^(θ)=−∂2θ2lnfy(θ)J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) (예상) 피셔 정보 계산에 …

1
귀무 가설 하에서 이항 검정을 시뮬레이션 할 때 p- 값의 불균일 분포
귀무 가설 하에서 p- 값 분포가 균일해야한다고 들었습니다. 그러나 MATLAB에서 이항 검정 시뮬레이션은 평균이 0.5보다 큰 균일 분포와 매우 다른 분포를 반환합니다 (이 경우 0.518). coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) …

1
Python의 Jenks Natural Breaks : 최적의 휴식 수를 찾는 방법은 무엇입니까?
Jenks Natural Breaks 알고리즘 의이 Python 구현 을 발견 했으며 Windows 7 컴퓨터에서 실행할 수 있습니다. 꽤 빠르며 지리 데이터의 크기를 고려하여 몇 시간 만에 중단 점을 찾습니다. 내 데이터에이 클러스터링 알고리즘을 사용하기 전에 (여기) 알고리즘을 사용하고있었습니다. KMeans와 관련된 문제는 최적의 K 값 매개 변수를 찾는 것이었지만 다른 K 값에 …


1
반복 된 k- 폴드 교차 검증의 분산보고
나는 k- 폴드 교차 검증을 반복해서 사용했고 교차 검증의 다른 실행의 접힘에 걸쳐 총 평균으로 계산 된 평균 (예 : 감도, 특이성)을보고했습니다. 그러나 분산을 어떻게보고해야하는지 잘 모르겠습니다. 여기에서 반복 교차 검증에 대해 많은 질문을 찾았지만 반복 교차 검증 테스트에서 분산에 대한 질문에 명시 적으로 답하는 것은 없습니다. 총 편차는 1) …

1
Biplot / loading 플롯에서 PCA 구성 요소와 변수의 적절한 연관 측정은 무엇입니까?
FactoMineR측정 데이터 세트를 잠재 변수로 줄이기 위해 사용 하고 있습니다. 내가 해석하는 위의 변수 맵은 분명하지만, 변수의지도를 찾고 변수와 구성 요소 1 사이의 연관에 올 때 나는 혼란 스러워요, ddp그리고 cov매우 가까운 맵의 구성 요소이며, ddpAbs조금 더있다 떨어져. 그러나 이것은 상관 관계가 보여주는 것이 아닙니다. $Dim.1 $Dim.1$quanti correlation p.value jittAbs …

2
Matthews 상관 계수 (MCC)를 해석하는 방법은 무엇입니까?
질문에 대한 대답 phi, Matthews 및 Pearson 상관 계수의 관계는 무엇입니까? 세 가지 계수 방법이 모두 동등 함을 보여줍니다. 나는 통계가 아니기 때문에 쉬운 질문이 될 것입니다. Matthews 논문 (www.sciencedirect.com/science/article/pii/0005279575901099)은 다음을 설명합니다. "A correlation of: C = 1 indicates perfect agreement, C = 0 is expected for a prediction no …

2
능선 회귀 분석 표준화에 관한 질문
이봐, 난 능선 회귀를 사용하는 하나 또는 두 개의 논문을 찾았습니다 (농구 데이터). 능선 회귀 분석을 실행하면 항상 변수를 표준화하라는 지시를 받았지만, 능선은 척도 변형이기 때문에 간단하게 지시를 받았습니다. 내가 읽은이 논문은 변수를 표준화하지 않았기 때문에 조금 놀랍습니다. 그들은 또한 교차 검증을 통해 큰 람다 값 (2000-4000 수준)으로 끝났으며 이는 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.