«apache-spark» 태그된 질문

3
PySpark에서 여러 데이터 프레임을 행 단위로 병합
나는 10 개 데이터 프레임이 pyspark.sql.dataframe.DataFrame로부터 얻은 randomSplit로 (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)지금은 9 가입 할 td내가 그렇게하는 방법, 하나의 데이터 프레임에 s '를? 나는 이미 시도 unionAll했지만이 함수는 두 개의 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
데이터 프레임 열의 평균을 계산하고 상위 10 %를 찾는 방법
저는 스칼라와 스파크를 처음 접했고 야구 통계를 사용하여 자체 제작 한 운동을하고 있습니다. 사례 클래스를 사용하여 RDD를 만들고 데이터에 스키마를 할당 한 다음이를 DataFrame으로 전환하여 SparkSQL을 사용하여 특정 기준에 맞는 통계를 통해 선수 그룹을 선택할 수 있습니다. 더 자세히보고 싶은 플레이어의 하위 집합이 있으면 열의 평균을 찾고 싶습니다. 예를 들어 …

3
pyspark 데이터 프레임의 모든 숫자 값을 상수 값으로 바꿉니다.
'null'요소와 숫자 요소로 구성된 pyspark 데이터 프레임을 고려하십시오. 일반적으로 숫자 요소의 값은 다릅니다. 데이터 프레임의 모든 숫자 값을 상수 숫자 값 (예 : 값 1)으로 바꾸는 방법은 무엇입니까? 미리 감사드립니다! pyspark 데이터 프레임의 예 : 12삼c10.04− 1n u l lc21n u l l1.2c31.35− 1.2n u l lc1c2c310.0411.352−1엔유엘엘−1.2삼엔유엘엘1.2엔유엘엘 \begin{array}{c|lcr} & \text{c1} …

3
Spark의 IPython / Jupyter 관련 문제 (인식 할 수없는 별칭)
스파크를 실험하기 위해 VM 세트를 설정하고 나가서 하드웨어를 사용하여 클러스터를 구축하는 데 돈을 씁니다. 빠른 참고 사항 : 저는 응용 기계 학습에 대한 배경 지식이있는 학계이며 데이터 과학 분야에서 약간의 연구를 중단했습니다. 나는 컴퓨팅 도구를 사용하지만 거의 설정이 필요하지 않습니다. VM 3 개 (마스터 1 개, 슬레이브 2 개)를 만들고 …

2
Pyspark에서 범주 형 데이터를 숫자 형 데이터로 변환하는 방법
pyspark 애플리케이션으로 작업하기 위해 Ipython 노트북을 사용하고 있습니다. 소득이 50k 범위 이하인지 여부를 결정하기 위해 범주 열이 많은 CSV 파일이 있습니다. 소득 범위를 결정하기 위해 모든 입력을 취하는 분류 알고리즘을 수행하고 싶습니다. 매핑 된 변수에 변수 사전을 작성하고 맵 함수를 사용하여 처리 할 변수를 숫자에 매핑해야합니다. 기본적으로 모델을 구현할 수 …

1
Spark ALS : 신규 사용자에게 권장
질문 Spark 교육을받은 ALS 모델에서 신규 사용자의 등급을 어떻게 예측합니까? (신규 = 훈련 시간 동안 보이지 않음) 문제 공식 Spark ALS 튜토리얼을 따르고 있습니다. http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html 괜찮은 MSE로 좋은 추천자를 만들 수는 있지만 모델에 새 데이터를 입력하는 방법에 어려움을 겪고 있습니다. 튜토리얼은 교육 전에 첫 번째 사용자의 등급을 변경하지만 이것은 실제로 …

1
머신 러닝을 이용한 서버 로그 분석
이 작업에는 예외 로그, 데이터베이스 로그 이벤트 로그 등이 포함 된 응용 프로그램의 서버 로그를 분석하기 위해 할당되었습니다. 기계 학습에 익숙하지 않은 탄력적 검색 및 Sparks MLlib (또는 PredictionIO)와 함께 Spark를 사용합니다. 결과적으로 수집 된 예외 로그를 ​​기반으로 예측하여 다음 예외를 유발할 가능성이 높은 사용자와 기능 (및 추적을 유지하고 응용 …

1
단일 RDD를 2 개로 최적으로 분할하는 Spark
특정 매개 변수에 따라 그룹으로 분할 해야하는 큰 데이터 세트가 있습니다. 작업을 가능한 한 효율적으로 처리하고 싶습니다. 그렇게하는 두 가지 방법을 상상할 수 있습니다 옵션 1- 원래 RDD 및 필터에서 맵 작성 def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.