데이터 과학 apache-spark

3

나는 10 개 데이터 프레임이 pyspark.sql.dataframe.DataFrame로부터 얻은 randomSplit로 (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)지금은 9 가입 할 td내가 그렇게하는 방법, 하나의 데이터 프레임에 s '를? 나는 이미 시도 unionAll했지만이 함수는 두 개의 …

21 python apache-spark cross-validation pyspark

5

seaborn 히트 맵을 더 크게 만들기

corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 방법입니까?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

데이터 프레임 열의 평균을 계산하고 상위 10 %를 찾는 방법

저는 스칼라와 스파크를 처음 접했고 야구 통계를 사용하여 자체 제작 한 운동을하고 있습니다. 사례 클래스를 사용하여 RDD를 만들고 데이터에 스키마를 할당 한 다음이를 DataFrame으로 전환하여 SparkSQL을 사용하여 특정 기준에 맞는 통계를 통해 선수 그룹을 선택할 수 있습니다. 더 자세히보고 싶은 플레이어의 하위 집합이 있으면 열의 평균을 찾고 싶습니다. 예를 들어 …

13 apache-spark scala

3

pyspark 데이터 프레임의 모든 숫자 값을 상수 값으로 바꿉니다.

'null'요소와 숫자 요소로 구성된 pyspark 데이터 프레임을 고려하십시오. 일반적으로 숫자 요소의 값은 다릅니다. 데이터 프레임의 모든 숫자 값을 상수 숫자 값 (예 : 값 1)으로 바꾸는 방법은 무엇입니까? 미리 감사드립니다! pyspark 데이터 프레임의 예 : 12삼c10.04− 1n u l lc21n u l l1.2c31.35− 1.2n u l lc1c2c310.0411.352−1엔유엘엘−1.2삼엔유엘엘1.2엔유엘엘 \begin{array}{c|lcr} & \text{c1} …

12 python apache-spark

3

Spark의 IPython / Jupyter 관련 문제 (인식 할 수없는 별칭)

스파크를 실험하기 위해 VM 세트를 설정하고 나가서 하드웨어를 사용하여 클러스터를 구축하는 데 돈을 씁니다. 빠른 참고 사항 : 저는 응용 기계 학습에 대한 배경 지식이있는 학계이며 데이터 과학 분야에서 약간의 연구를 중단했습니다. 나는 컴퓨팅 도구를 사용하지만 거의 설정이 필요하지 않습니다. VM 3 개 (마스터 1 개, 슬레이브 2 개)를 만들고 …

11 python apache-spark pyspark ipython

2

Pyspark에서 범주 형 데이터를 숫자 형 데이터로 변환하는 방법

pyspark 애플리케이션으로 작업하기 위해 Ipython 노트북을 사용하고 있습니다. 소득이 50k 범위 이하인지 여부를 결정하기 위해 범주 열이 많은 CSV 파일이 있습니다. 소득 범위를 결정하기 위해 모든 입력을 취하는 분류 알고리즘을 수행하고 싶습니다. 매핑 된 변수에 변수 사전을 작성하고 맵 함수를 사용하여 처리 할 변수를 숫자에 매핑해야합니다. 기본적으로 모델을 구현할 수 …

11 python apache-spark categorical-data pyspark

1

Spark ALS : 신규 사용자에게 권장

질문 Spark 교육을받은 ALS 모델에서 신규 사용자의 등급을 어떻게 예측합니까? (신규 = 훈련 시간 동안 보이지 않음) 문제 공식 Spark ALS 튜토리얼을 따르고 있습니다. http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html 괜찮은 MSE로 좋은 추천자를 만들 수는 있지만 모델에 새 데이터를 입력하는 방법에 어려움을 겪고 있습니다. 튜토리얼은 교육 전에 첫 번째 사용자의 등급을 변경하지만 이것은 실제로 …

10 apache-spark recommender-system pyspark

1

머신 러닝을 이용한 서버 로그 분석

이 작업에는 예외 로그, 데이터베이스 로그 이벤트 로그 등이 포함 된 응용 프로그램의 서버 로그를 분석하기 위해 할당되었습니다. 기계 학습에 익숙하지 않은 탄력적 검색 및 Sparks MLlib (또는 PredictionIO)와 함께 Spark를 사용합니다. 결과적으로 수집 된 예외 로그를 기반으로 예측하여 다음 예외를 유발할 가능성이 높은 사용자와 기능 (및 추적을 유지하고 응용 …

10 machine-learning predictive-modeling apache-spark

1

단일 RDD를 2 개로 최적으로 분할하는 Spark

특정 매개 변수에 따라 그룹으로 분할 해야하는 큰 데이터 세트가 있습니다. 작업을 가능한 한 효율적으로 처리하고 싶습니다. 그렇게하는 두 가지 방법을 상상할 수 있습니다 옵션 1- 원래 RDD 및 필터에서 맵 작성 def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: …

10 apache-spark pyspark

«apache-spark» 태그된 질문