«predictive-models» 태그된 질문

예측 모델은 특정 가설을 테스트하거나 현상을 기계적으로 설명하는 모델과 달리 시스템의 다른 관측을 최적으로 예측하는 것이 주된 목적인 통계 모델입니다. 따라서 예측 모델은 해석 가능성에 중점을 두지 않고 성능에 중점을 둡니다.

2
이것이 최첨단 회귀 방법론입니까?
저는 오랫동안 Kaggle 대회를 따라 왔으며 많은 우승 전략에는 "빅 3"중 하나 이상을 사용하는 것이 포함되어 있습니다. 포장, 부스팅 및 스태킹. 회귀 분석의 경우 가능한 최상의 회귀 모델을 작성하는 데 초점을 맞추지 않고 (일반화 된) 선형 회귀, 임의 포리스트, KNN, NN 및 SVM 회귀 모델과 같은 다중 회귀 모델을 작성하고 …

1
부스팅의 상대 변수 중요도
Gradient Boosted Trees에서 상대 변수 중요성이 계산되는 방법에 대한 설명을 찾고 있습니다. 측정 값은 변수가 분할을 위해 선택된 횟수, 각 분할의 결과로 모델의 제곱 개선에 의해 가중치가 부여되고 모든 트리에서 평균화 됩니다. [ Elith et al. 2008, 회귀 트리 향상을위한 작업 가이드 ] 그리고 그것은 덜 추상적입니다. 나는2j^( T) = …

6
파시 모니가 여전히 황금 표준이어야합니까?
그냥 생각 : Parsimonious 모델은 항상 모델 선택에서 기본으로 사용되었지만이 방법은 어느 정도 구식입니까? parsimony에 대한 우리의 경향이 abaci와 슬라이드 규칙의 시간 (또는 더 심각하지 않은 현대 컴퓨터)의 유물인지 궁금합니다. 오늘날의 컴퓨팅 성능을 통해 예측 능력이 더욱 강화 된 복잡한 모델을 구축 할 수 있습니다. 이러한 컴퓨팅 성능의 상한이 높아짐에 …

3
클래스 불균형 문제의 근본 원인은 무엇입니까?
나는 최근 기계 / 통계학 학습에서 "클래스 불균형 문제"에 대해 많은 생각을하고 있었고, 무슨 일이 일어나고 있는지 이해하지 못하는 느낌에 더 깊이 빠져들고 있습니다. 먼저 용어를 정의 (또는 정의)하려고합니다. 클래스 불균형 문제 기계 / 통계적 학습 1 등급 0 등급의 비율이 매우 기울어 진 경우 일부 분류 (*) 알고리즘이 잘 …

3
LASSO에 대한 인디케이터 / 바이너리 / 더미 예측 변수의 재조정 여부
LASSO (및 다른 모델 선택 절차)의 경우 예측 변수를 재조정하는 것이 중요합니다. 일반 추천 I 추적은 연속 변수의 0 평균, 1 개 표준 편차의 정상화를 사용하는 것입니다. 그러나 인형과 어떤 관련이 있습니까? 예를 들어 , 동일한 (우수한) 여름 학교의 일부 적용 예 는 연속 변수를 0과 1 사이로 조정하지만 (이상치에는 …

2
단계적 선택을 수행 한 후 p- 값이 잘못된 이유는 무엇입니까?
예를 들어 선형 회귀 모델을 생각해 봅시다. 데이터 마이닝에서 AIC 기준을 기반으로 단계별 선택을 수행 한 후 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것이 잘못되었다고 들었습니다. 모델에 남아있는 모든 변수를 0과 다른 실제 회귀 계수로 간주해야한다고 들었습니다. 아무도 왜 나에게 설명 할 수 있습니까? …

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
인과 관계없이 언제 상관 관계가 유용한가?
많은 통계 학자들에 대한 애완 동물의 말은 "상관이 원인을 암시하지는 않는다"는 것입니다. 이것은 확실히 사실이지만, 여기서 DOES가 암시하는 것처럼 보이는 것은 상관 관계가 거의 또는 전혀 가치가 없다는 것입니다. 이것이 사실입니까? 두 변수가 서로 관련되어 있다는 것을 아는 것은 쓸모가 없습니까? 나는 그것이 사실이라고 상상할 수 없다. 예측 분석에별로 익숙하지는 …

4
연속 및 범주 기능을 모두 사용하여 예측
일부 예측 모델링 기법은 연속 예측 변수를 처리하기 위해 더 설계된 반면, 다른 예측 기법은 범주 형 또는 이산 변수를 처리하는 데 더 좋습니다. 물론 한 유형을 다른 유형으로 변환하는 기술이 있습니다 (분산, 더미 변수 등). 그러나 단순히 피처 유형을 변환하지 않고 두 유형의 입력을 동시에 처리하도록 설계된 예측 모델링 …

1
분류와 회귀를 결합한 알고리즘이 있습니까?
분류와 회귀를 동시에 수행 할 수있는 알고리즘이 있는지 궁금합니다. 예를 들어 알고리즘이 분류자를 배우게하고 각 레이블 내 에서 동시에 연속적인 목표를 배우도록하겠습니다. 따라서 각 학습 예에 대해 범주 레이블 과 연속 값이 있습니다. 먼저 분류자를 훈련시킨 다음 각 레이블 내에서 회귀자를 훈련시킬 수 있지만 두 가지를 모두 수행 할 수있는 …

4
오버 샘플링, 언더 샘플링 및 SMOTE는 어떤 문제를 해결합니까?
최근에 잘 수신 된 질문에서 팀은 언제 머신 러닝에서 불균형 데이터가 실제로 문제 가 되는지 묻습니다 . 문제의 전제는 수업 균형 과 불균형 수업의 문제에 대해 많은 머신 러닝 문헌이 있다는 것입니다 . 아이디어는 긍정적 클래스와 부정적인 클래스 사이의 불균형이있는 데이터 세트가 일부 기계 학습 분류 (여기서는 확률 모델 포함) …

2
혼합 모형이 예측 모형으로 유용합니까?
나는 예측 모델링과 관련하여 혼합 모델의 장점에 대해 약간 혼란 스럽습니다. 예측 모델은 일반적으로 이전에 알려지지 않은 관측치의 값을 예측하기위한 것이기 때문에 혼합 모델이 유용 할 수있는 유일한 방법은 모집단 수준 예측 (임의의 효과를 추가하지 않음)을 제공하는 기능을 통해서만 가능하다는 것입니다. 그러나 문제는 지금까지 혼합 모형을 기반으로 한 인구 수준 …

3
분류 성능을 평가하기위한 교차 검증 또는 부트 스트랩?
특정 데이터 세트에서 분류기의 성능을 평가하고이를 다른 분류기와 비교하는 가장 적합한 샘플링 방법은 무엇입니까? 교차 검증은 표준 관행 인 것처럼 보이지만 .632 부트 스트랩과 같은 방법이 더 나은 선택임을 읽었습니다. 후속 조치 : 성능 지표 선택이 답변에 영향을 미칩니 까 (정확성 대신 AUC를 사용하는 경우)? 나의 궁극적 인 목표는 한 …

3
Sklearn 혼란 매트릭스를 해석하는 방법
혼동 행렬 을 사용하여 분류기의 성능을 확인하고 있습니다. 나는 Scikit-Learn을 사용하고 있습니다. 결과를 어떻게 해석 할 수 있습니까? from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.