통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


7
p- 값이 발견이 우연에 의한 확률이라는 것을 학생들에게 가르치는 것은 왜 나쁜가?
누군가 p- 값이 문제라는 것을 학생들에게 가르치는 것이 좋지 않은 이유에 대한 간결한 설명을 제공 할 수 있습니까? 내 이해는 p- 값이 prob라는 것입니다 (더 극단적 인 데이터 얻기 | 귀무 가설이 참임). 나의 진짜 관심은 그들에게 전자가 그것을 말하는 것의 해로움 이다 (단순하지 않다는 사실을 제외하고).




3
t-SNE가 군집화 또는 분류를위한 차원 축소 기술로 사용되지 않는 이유는 무엇입니까?
최근 과제에서 MNIST 숫자에 PCA를 사용하여 크기를 64 (8 x 8 이미지)에서 2로 줄이라는 지시를 받았습니다. 그런 다음 가우스 혼합 모델을 사용하여 숫자를 클러스터링해야했습니다. 2 개의 주요 구성 요소 만 사용하는 PCA는 별개의 군집을 생성하지 않으므로 모델이 유용한 그룹화를 생성 할 수 없습니다. 그러나 2 개의 구성 요소와 함께 t-SNE를 …

3
랜덤 포레스트 모델에서 정확도의 평균 감소 및 평균 감소 GINI를 해석하는 방법
Random Forest 패키지의 변수 중요도 출력을 해석하는 방법을 이해하는 데 어려움이 있습니다. 평균 정확도 감소는 일반적으로 "각 기능의 값을 변경하여 모델 정확도가 감소 함"으로 설명됩니다. 이 기능이 전체 기능 또는 기능 내 특정 값에 대한 설명입니까? 두 경우 모두 모형에서 문제의 특징 (또는 특징의 값)을 제거하여 정확도의 평균 감소가 잘못 …



3
로지스틱 회귀 95 % 신뢰 구간을 수동으로 계산하는 것과 R에서 confint () 함수를 사용하는 것 사이에 차이가있는 이유는 무엇입니까?
사랑하는 여러분, 제가 설명 할 수없는 이상한 것을 발견했습니다. 요약 : 로지스틱 회귀 모델에서 신뢰 구간을 계산하는 수동 방법과 R 함수 confint()는 다른 결과를 제공합니다. Hosmer & Lemeshow의 Applied Logistic Regression (2 판)을 진행했습니다. 세 번째 장에는 승산 비와 95 % 신뢰 구간을 계산하는 예가 있습니다. R을 사용하면 모델을 쉽게 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


5
CDF를 사용하여 예상 값 찾기
나는 이것이 바로 책에서 숙제 문제라고 말하는 것으로 시작하겠습니다. 나는 예상 값을 찾는 방법을 찾기 위해 몇 시간을 보냈으며 아무것도 이해하지 못한다고 결정했습니다. 하자 XXX CDF를 갖고 . 찾기 들 값 있는F(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) 가 존재 . 나는 이것을 시작하는 방법을 모른다. 존재 하는 값을 어떻게 확인할 …


3
(깊은) 신경망이 다른 방법을 능가 할 수없는지도 학습 문제가 있습니까?
사람들이 SVM과 커널에 많은 노력을 기울인 것을 보았고 머신 러닝의 출발점으로 꽤 흥미로워 보입니다. 그러나 (항상) 신경망 측면에서 거의 항상 우수한 솔루션을 찾을 수 있다고 생각한다면,이 시대에 다른 방법을 시도하는 의미는 무엇입니까? 여기이 주제에 대한 제약이 있습니다. 우리는지도 학습 만 생각합니다. 회귀 및 분류. 결과의 가독성은 계산되지 않습니다. 지도 학습 …

2
이것이 최첨단 회귀 방법론입니까?
저는 오랫동안 Kaggle 대회를 따라 왔으며 많은 우승 전략에는 "빅 3"중 하나 이상을 사용하는 것이 포함되어 있습니다. 포장, 부스팅 및 스태킹. 회귀 분석의 경우 가능한 최상의 회귀 모델을 작성하는 데 초점을 맞추지 않고 (일반화 된) 선형 회귀, 임의 포리스트, KNN, NN 및 SVM 회귀 모델과 같은 다중 회귀 모델을 작성하고 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.