프로그램 작성 pyspark

13

팬더 배경에서 왔으며 CSV 파일의 데이터를 데이터 프레임으로 읽은 다음 간단한 명령을 사용하여 열 이름을 유용한 것으로 변경하는 데 익숙합니다. df.columns = new_column_name_list 그러나 sqlContext를 사용하여 생성 된 pyspark 데이터 프레임에서도 동일하게 작동하지 않습니다. 이 작업을 쉽게 수행 할 수있는 유일한 해결책은 다음과 같습니다. df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt") oldSchema …

201 python apache-spark pyspark pyspark-sql

2

스칼라 대 파이썬의 스파크 성능

나는 스칼라보다 파이썬을 선호합니다. 그러나 Spark는 기본적으로 스칼라로 작성되었으므로 코드가 스칼라에서 Python 버전보다 더 빨리 실행될 것으로 예상되었습니다. 그 가정으로, 1GB의 데이터에 대해 매우 일반적인 전처리 코드의 스칼라 버전을 배우고 작성하려고 생각했습니다. 데이터는 Kaggle의 SpringLeaf 경쟁에서 선택 됩니다. 데이터에 대한 개요를 제공하기 위해 (1936 차원 및 145232 행 포함). 데이터는 …

178 scala performance apache-spark pyspark rdd

15

Spark에서 정보 로깅을 해제하는 방법은 무엇입니까?

AWS EC2 안내서를 사용하여 Spark를 설치했으며 bin/pyspark스크립트를 사용하여 프로그램을 시작 하여 Spark 프롬프트를 표시하고 Quick Start 종료를 성공적으로 수행 할 수 있습니다. 그러나 필자의 삶에서는 INFO각 명령 후에 모든 자세한 로깅 을 중지하는 방법을 알 수 없습니다 . 응용 프로그램을 시작하는 폴더와 각 노드 에서 내 log4j.properties파일 의 아래 코드 …

144 python scala apache-spark hadoop pyspark

2

Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?

DataFrame임의의 값 으로 열을 추가하고 싶습니다 (각 행마다 동일). withColumn다음과 같이 사용할 때 오류가 발생 합니다. dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, …

137 python apache-spark dataframe pyspark apache-spark-sql

9

Spark DataFrame에 새 열을 추가하려면 어떻게해야합니까 (PySpark 사용)?

Spark DataFrame (PySpark 1.5.1 사용)이 있고 새 열을 추가하고 싶습니다. 나는 성공하지 않고 다음을 시도했습니다. type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) 또한 이것을 사용하여 오류가 발생했습니다. my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) 그렇다면 PySpark를 사용하여 기존 DataFrame에 새 열 …

129 python apache-spark dataframe pyspark apache-spark-sql

19

파이썬 셸에서 pyspark 가져 오기

이것은 답변이없는 다른 포럼에있는 다른 사람의 질문의 사본이므로 동일한 문제가 있으므로 여기서 다시 질문 할 것이라고 생각했습니다. ( http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 참조 ) 내 컴퓨터에 Spark가 제대로 설치되어 있으며 ./bin/pyspark를 Python 인터프리터로 사용할 때 오류없이 pyspark 모듈로 Python 프로그램을 실행할 수 있습니다. 그러나 일반 Python 셸을 실행하려고 할 때 pyspark 모듈을 가져 …

111 python apache-spark pyspark

12

Spark로 CSV 파일로드

저는 Spark를 처음 사용하고 Spark를 사용하여 파일에서 CSV 데이터를 읽으려고합니다. 내가하는 일은 다음과 같습니다. sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() 이 호출이 내 파일의 첫 번째 두 열 목록을 제공 할 것으로 예상하지만이 오류가 발생합니다. File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range 내 CSV 파일이 …

110 python csv apache-spark pyspark

8

Spark DataFrame 열을 Python 목록으로 변환

두 개의 열, mvv 및 count가있는 데이터 프레임에서 작업합니다. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | mvv 값과 카운트 값을 포함하는 두 개의 목록을 얻고 싶습니다. 같은 것 mvv = [1,2,3,4] count = [5,9,3,1] …

104 python apache-spark pyspark spark-dataframe

4

Spark Kill 실행 애플리케이션

다른 애플리케이션에 리소스가 할당되지 않는 모든 코어를 차지하는 Spark 애플리케이션이 실행 중입니다. 나는 몇 가지 빠른 조사를 수행했으며 사람들은 YARN kill 또는 / bin / spark-class를 사용하여 명령을 죽일 것을 제안했습니다. 그러나 CDH 버전을 사용하고 있으며 / bin / spark-class는 전혀 존재하지 않으며 YARN kill 응용 프로그램도 작동하지 않습니다. 나와 …

101 apache-spark yarn pyspark

10

없음 값으로 Pyspark 데이터 프레임 열 필터링

None행 값 이있는 PySpark 데이터 프레임을 필터링하려고 합니다. df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 문자열 값으로 올바르게 필터링 할 수 있습니다. df[df.dt_mvmt == '2016-03-31'] # some results here 그러나 이것은 실패합니다. df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 그러나 각 카테고리에는 확실히 가치가 있습니다. 무슨 일이야?

100 python apache-spark dataframe pyspark apache-spark-sql

5

pyspark에서 Dataframe 열을 String 유형에서 Double 유형으로 변경하는 방법

열이 문자열 인 데이터 프레임이 있습니다. PySpark에서 열 유형을 Double 유형으로 변경하고 싶었습니다. 다음은 방법입니다. toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 로지스틱 회귀 분석을 실행하는 동안 오류가 발생하므로 이것이 문제의 원인인지 궁금합니다.

99 python apache-spark dataframe pyspark apache-spark-sql

5

Spark DataFrame groupBy 및 내림차순 정렬 (pyspark)

pyspark (Python 2.7.9 / Spark 1.3.1)를 사용하고 있으며 내림차순으로 필터링 및 정렬해야하는 데이터 프레임 GroupObject가 있습니다. 이 코드 조각을 통해 달성하려고합니다. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) 그러나 다음과 같은 오류가 발생합니다. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

18

Spark에서 드라이버의 Python 버전을 어떻게 설정합니까?

스파크와 함께 파이썬 3을 사용할 수 있도록 스파크 1.4.0-rc2를 사용하고 있습니다. export PYSPARK_PYTHON=python3.bashrc 파일에 추가 하면 python 3과 함께 Spark를 대화 형으로 실행할 수 있습니다. 그러나 로컬 모드에서 독립 실행 형 프로그램을 실행하려면 오류가 발생합니다. Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot …

88 apache-spark pyspark

9

pyspark 데이터 프레임에 고유 한 열 값 표시 : python

Pandas에 대한 pyspark 데이터 프레임 대안을 제안하십시오 df['col'].unique(). pyspark 데이터 프레임 열의 모든 고유 값을 나열하고 싶습니다. SQL 유형 방식이 아닙니다 (registertemplate 다음 고유 값에 대한 SQL 쿼리). 또한 필요하지 않으며 groupby->countDistinct대신 해당 열에서 고유 한 값을 확인하고 싶습니다.

85 pyspark pyspark-sql

8

pyspark 데이터 프레임에서 열을 삭제하는 방법

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] 두 개가 있는데 id: bigint하나를 삭제하고 싶습니다. 어떻게 할 수 있습니까?

82 apache-spark apache-spark-sql pyspark

«pyspark» 태그된 질문