«python» 태그된 질문

프로그래밍 언어 Python과 관련된 데이터 과학 질문에 사용합니다. 일반적인 코딩 질문 (-> stackoverflow)을위한 것은 아닙니다.

3
PySpark에서 여러 데이터 프레임을 행 단위로 병합
나는 10 개 데이터 프레임이 pyspark.sql.dataframe.DataFrame로부터 얻은 randomSplit로 (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)지금은 9 가입 할 td내가 그렇게하는 방법, 하나의 데이터 프레임에 s '를? 나는 이미 시도 unionAll했지만이 함수는 두 개의 …

2
팬더에서 두 열로 그룹화 된 값을 합산하는 방법
다음과 같은 Pandas DataFrame이 있습니다. df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 다음과 같이 새 DataFrame을 …

2
train_test_split () 오류 : 샘플 수가 일치하지 않는 입력 변수를 찾았습니다.
Python에 익숙하지 않지만 일부 분류 데이터를 기반으로 첫 번째 RF 모델을 작성합니다. 모든 레이블을 int64 숫자 데이터로 변환하고 numpy 배열로 X 및 Y에로드했지만 모델을 훈련하려고 할 때 오류가 발생했습니다. 내 배열은 다음과 같습니다. >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, …

2
케 라스 대 tf. 케 라스
나는 사이의 선택에 혼란 조금 해요 Keras (keras 팀 / keras) 및 tf.keras을 (tensorflow / tensorflow / 파이썬 / keras /) 내 새로운 연구 프로젝트. Keras 가 누구도 소유하지 않는다는 논쟁이 있습니다 . 따라서 사람들이 더 기고하고 프로젝트를 관리하기가 훨씬 쉬워 질 것입니다. ‬ 다른 측면에서, tf.keras은 Google에서 지금보다 엄격한 …

3
로지스틱 회귀 분석에서 비용 함수의 파이썬 구현
로지스틱 회귀 설정에서 파이썬, numpy 및 행렬의 곱셈과 관련된 매우 기본적인 질문이 있습니다. 먼저, 수학 표기법을 사용하지 않은 것에 대해 사과드립니다. 매트릭스 도트 곱셈과 요소 별 곱셈의 사용에 대해 혼란 스럽습니다. 비용 함수는 다음과 같이 제공됩니다. 그리고 파이썬에서 나는 이것을 다음과 같이 썼다. cost = -1/m * np.sum(Y * np.log(A) …

1
경도 / 위도 기능을 처리하는 방법 [닫기]
휴무 . 이 질문에는 세부 사항이나 명확성 이 필요 합니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 세부 사항을 추가하고 문제점을 명확하게하십시오 . 휴일 삼년 전에 . 25 가지 기능을 갖춘 가상의 데이터 세트를 작업 중입니다. 두 가지 특징은 장소의 위도 및 경도이며, 다른 …


4
Keras (Python)를 사용하여 LSTM-RNN에 대한 하이퍼 파라미터 검색
Keras RNN Tutorial : " RNN 은 까다 롭습니다. 배치 크기 선택이 중요하고, 손실 및 최적화 선택이 중요합니다. 일부 구성은 수렴되지 않습니다." 따라서 이것은 Keras에서 LSTM-RNN의 하이퍼 파라미터를 튜닝하는 것에 대한 일반적인 질문입니다. RNN에 가장 적합한 매개 변수를 찾는 방법에 대해 알고 싶습니다. Keras 'Github 에서 IMDB 예제로 시작했습니다 . …

3
파이썬에서 이미지 추출 기능
내 수업에서는 이미지의 객체가 phylum porifera (seasponge) 또는 다른 객체의 예인지 여부를 결정하기 위해 두 개의 분류자를 사용하여 응용 프로그램을 만들어야합니다. 그러나 파이썬에서 기능 추출 기술과 관련하여 완전히 잃어 버렸습니다. 조언자는 수업 시간에 다루지 않은 이미지를 사용하도록 설득했습니다. 누구든지 의미있는 문서 나 독서를 지시하거나 고려할 방법을 제안 할 수 있습니까?

4
거대한 데이터를 위해 파이썬에서 t-sne 구현 속도 향상
200 치수 ( doc2vec)를 가진 거의 백만 개의 벡터에서 차원 축소를하고 싶습니다 . 모듈 TSNE에서 구현을 사용 sklearn.manifold하고 있으며 주요 문제는 시간 복잡성입니다. 로도 method = barnes_hut계산 속도는 여전히 느립니다. 언젠가는 심지어 메모리가 부족합니다. 130G RAM의 48 코어 프로세서에서 실행 중입니다. 병렬로 실행하거나 많은 리소스를 사용하여 프로세스 속도를 높이는 방법이 …


5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
tfrecord 파일을 샤드로 분할하면 어떤 이점이 있습니까?
Tensorflow를 사용하여 음성 인식을 연구하고 있으며 대규모 웨이브 데이터 세트로 LSTM NN을 훈련시킬 계획입니다. 성능 향상으로 인해 tfrecords를 사용할 계획입니다. tfrecords 파일이 샤드로 분할되는 인터넷 (예 : Inception for example)에는 몇 가지 예가 있습니다. 내 질문은 : tfrecords 파일을 샤드에 저장하면 어떤 이점이 있습니까? 이 스플릿의 추가 성능 향상이 있습니까?

4
팬더가 data.table보다 빠릅니다.
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping data.table 벤치 마크는 2014 년 내가 들어 본 곳 이후 업데이트되지 않은 Pandas지금보다 더 빨리이다 data.table. 이것이 사실입니까? 누구든지 벤치 마크를 했습니까? 나는 전에 파이썬을 사용한 적이 없지만 pandas이길 수 있다면 전환을 고려할 것 data.table입니까?
17 python  r  pandas  data  data.table 

3
시계열의 이상 탐지를위한 좋은 패키지 찾기
시계열의 이상 탐지에 사용할 수있는 포괄적 인 오픈 소스 패키지 (Python 또는 R)가 있습니까? scikit-learn에는 하나의 클래스 SVM 패키지가 있지만 시계열 데이터는 아닙니다. 예를 들어 이상 감지를 위해 베이지안 네트워크를 사용하는보다 정교한 패키지를 찾고 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.