«python» 태그된 질문

프로그래밍 언어 Python과 관련된 데이터 과학 질문에 사용합니다. 일반적인 코딩 질문 (-> stackoverflow)을위한 것은 아닙니다.

4
사전 훈련 된 모델 가중치로 새로운 word2vec 모델을 초기화하는 방법은 무엇입니까?
Word2vector 모델을 사용하고 훈련시키기 위해 Python에서 Gensim Library를 사용하고 있습니다. 최근에 (GoogleNewDataset 사전 훈련 모델)과 같은 사전 훈련 된 word2vec 모델을 사용하여 모델 가중치를 초기화하려고했습니다. 나는 몇 주에 어려움을 겪고있다. 이제 gesim에는 사전 훈련 된 모델 가중치로 모델의 가중치를 초기화하는 데 도움이되는 기능이 있음을 검색했습니다. 아래에 언급되어 있습니다. reset_from(other_model) Borrow …

8
파이썬이 빅 데이터에 적합합니까?
이 글에서 읽은 것은 빅 데이터가 구성하는 빅 데이터에 적합한 R 언어5TB 이며, 이러한 유형의 데이터로 작업 할 가능성에 대한 정보를 제공하는 것은 훌륭 R하지만 정보는 거의 제공하지 않습니다 Python. Python이 많은 데이터로도 작업 할 수 있는지 궁금합니다 .
14 bigdata  python 

3
Keras의 model.predict 함수 출력은 무엇을 의미합니까?
Quora 공식 데이터 세트에서 중복 질문을 예측하기 위해 LSTM 모델을 만들었습니다. 테스트 레이블은 0 또는 1입니다. 1은 질문 쌍이 중복되었음을 나타냅니다. 를 사용하여 모델을 빌드 한 후 테스트 데이터를 model.fit사용하여 모델을 model.predict테스트합니다. 출력은 아래와 같은 값의 배열입니다. [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ …


1
XGBRegressor와 xgboost의 속도 차이가 큰가?
다음 코드를 사용하여 모델을 훈련시키는 경우 : import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 약 1 분 후에 완료됩니다. Sci-Kit 학습 방법을 사용하여 모델을 훈련시키는 경우 : import …

1
int의 pandas 열을 타임 스탬프 데이터 유형으로 변환
1970-1-1 년 이후로 전달 된 밀리 초 수의 열을 포함하는 데이터 프레임이 있습니다. 이 int 열을 타임 스탬프 데이터로 변환해야하므로 1970-1-1의 날짜 / 시간 값으로 구성된 시리즈에 타임 스탬프 열 시리즈를 추가하여 궁극적으로 날짜 / 시간 데이터 열로 변환 할 수 있습니다. 일련의 문자열 을 날짜 시간 데이터 (pandas.to_datetime) 로 …

5
Scikit-learn Random Forest의 기능 중요성은 매우 높은 표준 편차를 보여줍니다
scikit-learn Random Forest Classifier를 사용하고 있으며이 예제 와 같이 기능의 중요도를 그려보고 싶습니다 . 그러나 피처 중요도 표준 편차가 피처 중요도 자체보다 거의 항상 크다는 점에서 필자의 결과는 완전히 다릅니다 (첨부 된 이미지 참조). 그런 행동을하는 것이 가능합니까, 아니면 그것을 그릴 때 실수를 저지르고 있습니까? 내 코드는 다음과 같습니다 import …

1
다차원 및 다변량 시계열 예측 (RNN / LSTM) Keras
Keras (또는 TensorFlow)를 사용하여 다차원 및 다변량 시계열 예측 을 만들기 위해 데이터를 표현하고 형성하는 방법을 이해하려고 노력 했지만 많은 블로그 게시물 / 자습서 / 문서를 읽은 후에도 여전히 명확하지 않습니다. 올바른 모양 (대부분의 예는 약간 적음) 내 데이터 세트 : 여러 도시 온도, 자동차 교통량, 습도에 대한 정보가 있습니다. …
12 python  keras  rnn  lstm 

2
검증 손실 및 정확도는 일정하게 유지
이 논문을 일련의 의료 이미지에 구현하려고합니다 . Keras에서하고 있습니다. 네트워크는 기본적으로 4 개의 conv 및 max-pool 레이어와 완전히 연결된 레이어 및 소프트 최대 분류기로 구성됩니다. 내가 아는 한,이 논문에서 언급 한 아키텍처를 따랐습니다. 그러나 유효성 검사 손실 및 정확도는 전체적으로 동일하게 유지됩니다. 정확도는 ~ 57.5 %로 고정 된 것으로 보입니다. …

3
NLTK의 NER 관련 도움말
파이썬을 사용하는 동안 NLTK에서 한동안 일했습니다. 내가 직면하고있는 문제는 NLTK의 NER를 내 사용자 정의 데이터로 훈련시키는 데 도움이되지 않는다는 것입니다. 그들은 MaxEnt를 사용하여 ACE 말뭉치에 대해 교육했습니다. 웹에서 많이 검색했지만 NLTK의 NER를 훈련시키는 데 사용할 수있는 방법을 찾지 못했습니다. 누구든지 NLTK NER 교육에 사용되는 교육 데이터 세트 형식으로 안내 할 …

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
대규모 데이터 세트를위한 효율적인 차원 축소
~ 1M 행과 ~ 500K 스파 스 기능이있는 데이터 세트가 있습니다. 1K-5K 고밀도 피쳐의 순서로 차원을 축소하고 싶습니다. sklearn.decomposition.PCA스파 스 데이터에서 작동하지 않으며 사용하려고 sklearn.decomposition.TruncatedSVD했지만 메모리 오류가 매우 빨리 발생합니다. 이 스케일에서 효율적인 차원 축소를위한 옵션은 무엇입니까?

1
CPU 사용량 및 메모리에 대한 scikit-learn n_jobs 매개 변수
scikit-learn의 대부분 추정기에는를 사용하여 병렬 작업을 작성하기위한 / 메소드에 n_jobs매개 변수가 있습니다. 이 프로세스 를 설정 하면 단 하나의 Python 프로세스 가 생성되고 코어가 최대가되어 CPU 사용량이 2500 %를 초과하는 것으로 나타났습니다 . 이것은 양의 정수> 1로 설정하는 것과는 매우 다르며 ~ 100 % 사용으로 여러 Python 프로세스를 만듭니다.fitpredictjoblib-1 이 …

2
임의 포리스트 분류에 범주 형 데이터 유형을 맞추려면 어떻게해야합니까?
Random Forest Algorithm을 적용하여 훈련 데이터 세트의 정확성을 찾아야합니다. 그러나 내 데이터 세트 유형은 범주 및 숫자입니다. 해당 데이터를 맞추려고 할 때 오류가 발생합니다. '입력에 NaN, 무한대 또는 dtype ('float32 ')에 비해 너무 큰 값이 있습니다.' 개체 데이터 형식에 문제가있을 수 있습니다. RF 적용을 위해 변환하지 않고 범주 형 데이터를 …

3
pyspark 데이터 프레임의 모든 숫자 값을 상수 값으로 바꿉니다.
'null'요소와 숫자 요소로 구성된 pyspark 데이터 프레임을 고려하십시오. 일반적으로 숫자 요소의 값은 다릅니다. 데이터 프레임의 모든 숫자 값을 상수 숫자 값 (예 : 값 1)으로 바꾸는 방법은 무엇입니까? 미리 감사드립니다! pyspark 데이터 프레임의 예 : 12삼c10.04− 1n u l lc21n u l l1.2c31.35− 1.2n u l lc1c2c310.0411.352−1엔유엘엘−1.2삼엔유엘엘1.2엔유엘엘 \begin{array}{c|lcr} & \text{c1} …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.