«linear-regression» 태그된 질문

하나 (또는 ​​그 이상의) "종속"변수와 "독립"변수 간의 관계를 분석하는 기술.

5
비용 함수가 왜 제곱 오차를 사용합니까?
방금 기계 학습을 시작했으며 지금까지 하나의 변수에 대한 선형 회귀를 다루었습니다. 나는 가설이 있다는 것을 배웠다. hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x 매개 변수 및 θ 1에 대한 올바른 값을 찾기 위해 계산 된 결과와 테스트 데이터의 실제 결과 간의 차이를 최소화하려고합니다. 그래서 우리는 빼기θ0θ0\theta_0θ1θ1\theta_1 hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 1 에서 m 까지의 모든 대해 . 따라서이 차이에 …

3
선형 회귀 분석에서 가중치를 음이 아닌 값으로 만드는 방법
파이썬에서 scikit-learn을 사용하여 표준 선형 회귀를 사용하고 있습니다. 그러나 가중치가 모든 기능 (음수가 아님)에 대해 모두 긍정적이되도록하고 싶습니다. 그것을 달성 할 수있는 방법이 있습니까? 나는 문서를보고 있었지만 그것을 달성 할 수있는 방법을 찾지 못했습니다. 나는 최선의 해결책을 얻지 못할 수도 있음을 이해하지만, 음이 아닌 가중치가 필요합니다.

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 



1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
XGBoost 선형 회귀 출력이 잘못되었습니다
나는 XGBoost의 초보자이므로 내 무지를 용서하십시오. 파이썬 코드는 다음과 같습니다. import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred 출력 : [ 24.126194 24.126194] 보시다시피 …

2
선형 회귀 및 데이터 스케일링
다음 그림은 선형 회귀로 얻은 계수를 보여줍니다 ( mpg목표 변수로, 다른 모든 변수는 예측 변수로). 데이터 를 스케일링하거나 스케일링하지 않은 mtcars 데이터 세트 ( here 및 here )의 경우 : 이 결과를 어떻게 해석합니까? 변수 hp및 disp데이터의 크기가 조절 된 경우에만 중요합니다. 인가 am와 qsec동등하게 중요이거나 am보다 더 중요 qsec? …

3
GPS 좌표 (위도 및 경도)를 선형 모델의 피쳐로 사용할 수 있습니까?
많은 기능 중에서 GPS 좌표 (위도 및 경도)를 포함하는 데이터 세트가 있습니다. 이 데이터 세트를 사용하여 다음과 같은 문제를 탐색하고 싶습니다. (1) ETA를 계산하여 시작 지점과 끝 지점 사이를 이동합니다. 및 (2) 특정 지점에 대한 범죄의 양을 추정. 선형 회귀 모델을 사용하고 싶습니다. 그러나 이러한 GPS 좌표를 선형 모델에서 직접 …

2
L2보다 L1 정규화를 사용하는 이유는 무엇입니까?
손실 함수를 사용하여 선형 회귀 모델을 수행하는 이유는 무엇입니까? 엘1엘1L_1 대신에 엘2엘2L_2 정규화? 과적 합을 방지하는 것이 더 낫습니까? 결정적입니까 (그래서 항상 독특한 솔루션입니까)? 희소 모델을 생성하기 때문에 기능 선택이 더 낫습니까? 기능들 사이에 가중치가 분산됩니까?

1
임의 포리스트와 선형 회귀를 통한 기능 중요도는 다릅니다.
Lasso를 적용하여 기능 순위를 매기고 다음 결과를 얻었습니다. rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 데이터 세트에는 3 개의 레이블이 있습니다. 다른 레이블의 기능 순위는 동일합니다. 그런 다음 임의의 포리스트를 동일한 데이터 세트에 적용했습니다. rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.