«pyspark» 태그된 질문

3
PySpark에서 여러 데이터 프레임을 행 단위로 병합
나는 10 개 데이터 프레임이 pyspark.sql.dataframe.DataFrame로부터 얻은 randomSplit로 (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)지금은 9 가입 할 td내가 그렇게하는 방법, 하나의 데이터 프레임에 s '를? 나는 이미 시도 unionAll했지만이 함수는 두 개의 …

4
CSV 파일 내용을 pyspark 데이터 프레임으로 가져 오기
.csv 파일을 pyspark 데이터 프레임으로 가져 오려면 어떻게합니까? 팬더에서 CSV 파일을 읽은 다음 createDataFrame을 사용하여 스파크 데이터 프레임으로 변환하려고 시도했지만 여전히 오류가 표시됩니다. 누군가 이것을 통해 나를 안내 할 수 있습니까? 또한 xlsx 파일을 가져 오는 방법을 알려주십시오. CSV 콘텐츠를 팬더 데이터 프레임으로 가져온 다음 스파크 데이터 프레임으로 변환하려고하지만 오류가 …
13 pyspark 

1
몇 개의 LSTM 셀을 사용해야합니까?
사용해야하는 최소, 최대 및 "합리적인"양의 LSTM 셀과 관련된 경험 법칙 (또는 실제 규칙)이 있습니까? 특히 TensorFlow 및 속성의 BasicLSTMCell 과 관련이 num_units있습니다. 분류 문제가 다음과 같이 정의되었다고 가정하십시오. t - number of time steps n - length of input vector in each time step m - length of output vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Spark의 IPython / Jupyter 관련 문제 (인식 할 수없는 별칭)
스파크를 실험하기 위해 VM 세트를 설정하고 나가서 하드웨어를 사용하여 클러스터를 구축하는 데 돈을 씁니다. 빠른 참고 사항 : 저는 응용 기계 학습에 대한 배경 지식이있는 학계이며 데이터 과학 분야에서 약간의 연구를 중단했습니다. 나는 컴퓨팅 도구를 사용하지만 거의 설정이 필요하지 않습니다. VM 3 개 (마스터 1 개, 슬레이브 2 개)를 만들고 …

2
Pyspark에서 범주 형 데이터를 숫자 형 데이터로 변환하는 방법
pyspark 애플리케이션으로 작업하기 위해 Ipython 노트북을 사용하고 있습니다. 소득이 50k 범위 이하인지 여부를 결정하기 위해 범주 열이 많은 CSV 파일이 있습니다. 소득 범위를 결정하기 위해 모든 입력을 취하는 분류 알고리즘을 수행하고 싶습니다. 매핑 된 변수에 변수 사전을 작성하고 맵 함수를 사용하여 처리 할 변수를 숫자에 매핑해야합니다. 기본적으로 모델을 구현할 수 …

1
Spark ALS : 신규 사용자에게 권장
질문 Spark 교육을받은 ALS 모델에서 신규 사용자의 등급을 어떻게 예측합니까? (신규 = 훈련 시간 동안 보이지 않음) 문제 공식 Spark ALS 튜토리얼을 따르고 있습니다. http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html 괜찮은 MSE로 좋은 추천자를 만들 수는 있지만 모델에 새 데이터를 입력하는 방법에 어려움을 겪고 있습니다. 튜토리얼은 교육 전에 첫 번째 사용자의 등급을 변경하지만 이것은 실제로 …

1
단일 RDD를 2 개로 최적으로 분할하는 Spark
특정 매개 변수에 따라 그룹으로 분할 해야하는 큰 데이터 세트가 있습니다. 작업을 가능한 한 효율적으로 처리하고 싶습니다. 그렇게하는 두 가지 방법을 상상할 수 있습니다 옵션 1- 원래 RDD 및 필터에서 맵 작성 def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.