통계 및 빅 데이터

2

혼합 유형 데이터를 사용한 계층 적 클러스터링-어떤 거리 / 유사성을 사용해야합니까?

내 데이터 세트에는 연속 및 자연 이산 변수가 있습니다. 두 가지 유형의 변수를 모두 사용하여 계층 적 클러스터링을 수행 할 수 있는지 알고 싶습니다. 그렇다면, 어떤 거리 측정이 적절한가?

34 clustering similarities distance-functions mixed-type-data

7

p- 값이 발견이 우연에 의한 확률이라는 것을 학생들에게 가르치는 것은 왜 나쁜가?

누군가 p- 값이 문제라는 것을 학생들에게 가르치는 것이 좋지 않은 이유에 대한 간결한 설명을 제공 할 수 있습니까? 내 이해는 p- 값이 prob라는 것입니다 (더 극단적 인 데이터 얻기 | 귀무 가설이 참임). 나의 진짜 관심은 그들에게 전자가 그것을 말하는 것의 해로움 이다 (단순하지 않다는 사실을 제외하고).

34 p-value randomness teaching

3

교차 검증은 과적 합 문제를 어떻게 극복합니까?

교차 검증 절차가 모델 과적 합 문제를 극복하는 이유는 무엇입니까?

34 regression model-selection cross-validation

3

계층 적 모델, 신경망, 그래픽 모델, 베이지안 네트워크의 관계는 무엇입니까?

그것들은 모두 노드에 의한 임의의 변수와 (아마도 지시 된) 가장자리를 통한 (의) 의존성을 나타내는 것처럼 보입니다. 나는 베이지안의 관점에 관심이 있습니다.

34 causality neural-networks multilevel-analysis graphical-model

4

종단 설계와 시계열의 차이점

종단 설계와 시계열의 차이점은 무엇입니까?

34 time-series panel-data

3

t-SNE가 군집화 또는 분류를위한 차원 축소 기술로 사용되지 않는 이유는 무엇입니까?

최근 과제에서 MNIST 숫자에 PCA를 사용하여 크기를 64 (8 x 8 이미지)에서 2로 줄이라는 지시를 받았습니다. 그런 다음 가우스 혼합 모델을 사용하여 숫자를 클러스터링해야했습니다. 2 개의 주요 구성 요소 만 사용하는 PCA는 별개의 군집을 생성하지 않으므로 모델이 유용한 그룹화를 생성 할 수 없습니다. 그러나 2 개의 구성 요소와 함께 t-SNE를 …

34 classification clustering pca dimensionality-reduction tsne

3

랜덤 포레스트 모델에서 정확도의 평균 감소 및 평균 감소 GINI를 해석하는 방법

Random Forest 패키지의 변수 중요도 출력을 해석하는 방법을 이해하는 데 어려움이 있습니다. 평균 정확도 감소는 일반적으로 "각 기능의 값을 변경하여 모델 정확도가 감소 함"으로 설명됩니다. 이 기능이 전체 기능 또는 기능 내 특정 값에 대한 설명입니까? 두 경우 모두 모형에서 문제의 특징 (또는 특징의 값)을 제거하여 정확도의 평균 감소가 잘못 …

34 r machine-learning classification random-forest

5

베이지안 모형은 정확히 무엇입니까?

베이 즈 정리가 "베이지안 모델"로 사용되는 모델을 호출 할 수 있습니까? 나는 그러한 정의가 너무 광범위 할까 두렵다. 베이지안 모델은 정확히 무엇입니까?

34 machine-learning bayesian

2

우도 비 검정은 왜 카이 제곱으로 분산됩니까?

우도 비 검정의 검정 통계량이 카이 제곱으로 분산 된 이유는 무엇입니까? 2 ( ln 엘a l t m o d e l − ln 엘n u l l m o d e l ) ∼ χ2디에프패 t− d에프n u l l2(ln⁡ 엘에이엘티 엠영형디이자형엘−ln⁡ 엘엔유엘엘 엠영형디이자형엘)∼χ디에프에이엘티−디에프엔유엘엘22(\ln \text{ L}_{\rm alt\ model} - …

34 distributions chi-squared likelihood-ratio

3

로지스틱 회귀 95 % 신뢰 구간을 수동으로 계산하는 것과 R에서 confint () 함수를 사용하는 것 사이에 차이가있는 이유는 무엇입니까?

사랑하는 여러분, 제가 설명 할 수없는 이상한 것을 발견했습니다. 요약 : 로지스틱 회귀 모델에서 신뢰 구간을 계산하는 수동 방법과 R 함수 confint()는 다른 결과를 제공합니다. Hosmer & Lemeshow의 Applied Logistic Regression (2 판)을 진행했습니다. 세 번째 장에는 승산 비와 95 % 신뢰 구간을 계산하는 예가 있습니다. R을 사용하면 모델을 쉽게 …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

4

의사 결정 트리의 약점은 무엇입니까?

의사 결정 트리는 매우 이해하기 쉬운 기계 학습 방법으로 보입니다. 일단 만들어지면 사람이 쉽게 검사 할 수있어 일부 응용 분야에서 큰 이점이 있습니다. 의사 결정 트리의 실질적인 약점은 무엇입니까?

34 machine-learning nonparametric cart

5

CDF를 사용하여 예상 값 찾기

나는 이것이 바로 책에서 숙제 문제라고 말하는 것으로 시작하겠습니다. 나는 예상 값을 찾는 방법을 찾기 위해 몇 시간을 보냈으며 아무것도 이해하지 못한다고 결정했습니다. 하자 XXX CDF를 갖고 . 찾기 들 값 있는F(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) 가 존재 . 나는 이것을 시작하는 방법을 모른다. 존재 하는 값을 어떻게 확인할 …

34 self-study expected-value

6

데이터 마이닝 : 기능적 형태를 찾으려면 어떻게해야합니까?

나는 함수의 함수 형태를 발견 할 수 있습니다 반복 절차에 대한 궁금 y = f(A, B, C) + error_term내 유일한 입력이 관찰의 집합이다 ( y, A, B및 C). 의 기능적 형태 f는 알려져 있지 않습니다. 다음 데이터 세트를 고려하십시오. AA BB CC DD EE FF == == == == == …

34 regression machine-learning algorithms model-selection data-mining

3

(깊은) 신경망이 다른 방법을 능가 할 수없는지도 학습 문제가 있습니까?

사람들이 SVM과 커널에 많은 노력을 기울인 것을 보았고 머신 러닝의 출발점으로 꽤 흥미로워 보입니다. 그러나 (항상) 신경망 측면에서 거의 항상 우수한 솔루션을 찾을 수 있다고 생각한다면,이 시대에 다른 방법을 시도하는 의미는 무엇입니까? 여기이 주제에 대한 제약이 있습니다. 우리는지도 학습 만 생각합니다. 회귀 및 분류. 결과의 가독성은 계산되지 않습니다. 지도 학습 …

33 machine-learning svm kernel-trick supervised-learning

2

이것이 최첨단 회귀 방법론입니까?

저는 오랫동안 Kaggle 대회를 따라 왔으며 많은 우승 전략에는 "빅 3"중 하나 이상을 사용하는 것이 포함되어 있습니다. 포장, 부스팅 및 스태킹. 회귀 분석의 경우 가능한 최상의 회귀 모델을 작성하는 데 초점을 맞추지 않고 (일반화 된) 선형 회귀, 임의 포리스트, KNN, NN 및 SVM 회귀 모델과 같은 다중 회귀 모델을 작성하고 …

33 predictive-models boosting bagging stacking model-averaging