데이터 과학 predictive-modeling

8

논리는 종종 모델을 과적 합함으로써 일반화 할 수있는 능력이 제한적이라고 말하지만, 이는 과적 합이 특정 복잡성 이후에 모델이 개선되는 것을 막을 수 있음을 의미 할 수도 있습니다. 과적 합은 데이터의 복잡성에 관계없이 모델을 악화시키는 원인이됩니까? 그렇다면 왜 그런가? 관련 : 위의 질문에 대한 후속 조치 , " 모델은 언제 적합하지 …

49 machine-learning predictive-modeling

4

새로운 관측 값을 사용할 수있는 경우 모델을 다시 훈련시켜야합니까?

따라서이 주제에 대한 문헌을 찾을 수 없었지만 생각할 가치가있는 것처럼 보입니다. 새로운 관찰이 가능한 경우 모델 교육 및 최적화에 대한 모범 사례는 무엇입니까? 예측이 저하되기 전에 모델 재 훈련주기 / 빈도를 결정하는 방법이 있습니까? 매개 변수가 집계 된 데이터에 대해 다시 최적화되면 과적 합입니까? 학습이 반드시 온라인 일 필요 는 …

28 machine-learning predictive-modeling optimization training

1

LSTM을 사용한 시계열 예측 : 시계열을 고정시키는 중요성

정지성과 차분 성에 관한 이 링크에서 ARIMA와 같은 모델은 평균, 분산, 자기 상관 등과 같은 통계적 속성이 시간에 따라 일정하므로 예측을 위해 정지 된 시계열을 필요로한다고 언급되었습니다. RNN은 비선형 관계를 학습 할 수있는 능력이 더 우수하기 때문에 ( 여기서 : 시계열 예측을위한 반복적 인 신경망의 약속 ) 데이터가 클 때 …

21 deep-learning predictive-modeling time-series forecast lstm

2

Word2vec 모델을 사용하여 단어 예측

"나는 열 때 ?? 문을 자동으로 가열 시작을" 가능한 단어 목록을 얻고 싶습니다 ?? ?? 확률로. word2vec 모델에 사용 된 기본 개념은 주변 문맥에서 단어를 "예측"하는 것입니다. 모델이 구축되면 새로운 문장에 대한 예측 작업을 수행하는 올바른 컨텍스트 벡터 작업은 무엇입니까? 단순히 선형 합계입니까? model.most_similar(positive=['When','I','open','the','door','it','starts' ,'heating','automatically'])

20 nlp predictive-modeling word-embeddings

5

seaborn 히트 맵을 더 크게 만들기

corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 방법입니까?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

기계 학습에서 희소 데이터와 밀도가 높은 데이터를 병합하여 성능 향상

나는 예측 가능한 희소 특징을 가지고 있으며, 또한 예측 가능한 조밀 한 특징이 있습니다. 분류기의 전반적인 성능을 향상 시키려면 이러한 기능을 결합해야합니다. 이제는 이들을 함께 결합하려고 할 때 밀도가 높은 기능은 희소 기능보다 더 많이 지배되는 경향이 있으므로 밀도가 높은 기능이있는 모델에 비해 AUC가 1 % 향상됩니다. 누군가 비슷한 문제를 …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

3

xgboost에서 확률을 예측하는 방법?

아래 예측 함수는 -ve 값도 제공하므로 확률이 될 수 없습니다. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 나는 구글 & 시도 pred_s <- predict(bst, x_mat_s2,type="response") 했지만 작동하지 않았다. 질문 대신 확률을 예측하는 방법?

16 machine-learning r predictive-modeling decision-trees

3

앙상블이 그렇게 비합리적으로 효과적인 이유

학습자의 앙상블이 가능한 최상의 모델 결과를 이끌어내는 것은 공리적 인 것처럼 보이며 예를 들어 단일 모델이 Kaggle과 같은 경쟁에서이기는 것은 점점 더 어려워지고 있습니다. 앙상블이 그토록 효과적인 이유에 대한 이론적 설명이 있습니까?

14 machine-learning data-mining predictive-modeling

1

해싱 트릭-실제로 일어나는 일

Vowpal Wabbit 또는 일부 인수 분해 시스템이 클릭률 경쟁 ( Kaggle ) 을 수상한 ML 알고리즘과 같이 기능이 '해시'되었다고 언급하면 실제로 모델에 어떤 의미가 있습니까? 인터넷 추가의 ID를 나타내는 변수가 있는데 '236BG231'과 같은 값을 사용합니다. 그런 다음이 기능은 임의의 정수로 해시된다는 것을 이해합니다. 그러나 내 질문은 다음과 같습니다. 이제 모델에서 …

12 machine-learning predictive-modeling kaggle

1

몇 개의 LSTM 셀을 사용해야합니까?

사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

파이썬에 적합한 기본 언어 모델이 있습니까?

응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

임의의 숲에서 과적 합을 피하는 방법?

임의의 포리스트에서 과적 합을 피하고 싶습니다. 이와 관련하여 mtry, nodesize 및 maxnodes 등을 사용하려고합니다. 이러한 매개 변수의 값을 선택하도록 도와 주시겠습니까? R을 사용하고 있습니다. 또한 가능한 경우 임의 포리스트 (R)에서 k- 폴드 크로스 유효성 검사를 사용하는 방법을 알려주십시오.

11 machine-learning data-mining r predictive-modeling random-forest

3

회귀 트리는 지속적으로 예측할 수 있습니까?

와 같은 부드러운 함수가 있다고 가정하십시오 . 훈련 세트가 있습니다. D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} 그리고 물론 내가 원하는 곳에서 f 를 평가할 수는 있지만 f 는 모른다 .f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), …

11 predictive-modeling regression decision-trees

3

다자간 시스템에서 선거 결과를 계산하기 위해 어떤 회귀를 사용합니까?

의회 선거 결과를 예측하고 싶습니다. 내 결과는 각 당사자가받는 %입니다. 둘 이상의 당사자가 있으므로 로지스틱 회귀는 실행 가능한 옵션이 아닙니다. 각 당사자에 대해 별도의 회귀를 만들 수 있지만 그 경우 결과는 서로 독립적입니다. 결과의 합이 100 %임을 보장하지는 않습니다. 어떤 회귀 (또는 다른 방법)를 사용해야합니까? 특정 라이브러리를 통해 R 또는 …

11 classification r python regression predictive-modeling

3

KS, AUROC 및 Gini의 관계

Kolmogorov–Smirnov 검정 (KS), AUROC 및 Gini 계수 와 같은 일반적인 모델 검증 통계 는 모두 기능적으로 관련되어 있습니다. 그러나 내 질문은 이것이 어떻게 관련되어 있는지 증명하는 것과 관련이 있습니다. 이 관계를 증명할 수있는 사람이 있는지 궁금합니다. 온라인에서 아무것도 찾을 수 없었지만 증거의 작동 방식에 진심으로 관심이 있습니다. 예를 들어 Gini …

11 data-mining statistics predictive-modeling accuracy

«predictive-modeling» 태그된 질문