프로그램 작성 apache-spark-sql

15

난 그냥 사이의 차이 무엇인가 궁금 RDD하고 DataFrame (스파크 2.0.0 DataFrame가 단순한 유형의 별칭 Dataset[Row]) 아파치 스파크에서? 하나를 다른 것으로 바꿀 수 있습니까?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

내가 다음과 같은 일을한다고 가정 해보십시오. val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

152 scala apache-spark apache-spark-sql

8

각 그룹의 첫 번째 행을 선택하는 방법은 무엇입니까?

다음과 같이 DataFrame이 생성되었습니다. df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 결과는 다음과 같습니다. +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | …

143 sql scala apache-spark dataframe apache-spark-sql

14

스파크-CSV 파일을 DataFrame으로로드 하시겠습니까?

스파크에서 CSV를 읽고 DataFrame으로 변환하여 HDFS에 저장하고 싶습니다. df.registerTempTable("table_name") 나는 시도했다 : scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 내가 얻은 오류 : java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at …

142 scala apache-spark hadoop apache-spark-sql hdfs

11

spark에서 rdd 객체를 데이터 프레임으로 변환하는 방법

어떻게 내가 RDD을 (변환 할 수 있습니다 org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]Dataframe에) org.apache.spark.sql.DataFrame. 를 사용하여 데이터 프레임을 rdd로 변환했습니다 .rdd. 그것을 처리 한 후 데이터 프레임에 다시 넣고 싶습니다. 어떻게해야합니까?

139 scala apache-spark apache-spark-sql rdd

2

Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?

DataFrame임의의 값 으로 열을 추가하고 싶습니다 (각 행마다 동일). withColumn다음과 같이 사용할 때 오류가 발생 합니다. dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Spark SQL에서 열을 내림차순으로 정렬하는 방법은 무엇입니까?

시도 df.orderBy("col1").show(10)했지만 오름차순으로 정렬되었습니다. df.sort("col1").show(10)또한 내림차순으로 정렬합니다. 나는 stackoverflow를 살펴 보았고 내가 찾은 대답은 모두 구식이거나 RDD라고 언급했다 . 스파크에서 기본 데이터 프레임을 사용하고 싶습니다.

137 scala apache-spark apache-spark-sql

9

Spark DataFrame에 새 열을 추가하려면 어떻게해야합니까 (PySpark 사용)?

Spark DataFrame (PySpark 1.5.1 사용)이 있고 새 열을 추가하고 싶습니다. 나는 성공하지 않고 다음을 시도했습니다. type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) 또한 이것을 사용하여 오류가 발생했습니다. my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) 그렇다면 PySpark를 사용하여 기존 DataFrame에 새 열 …

129 python apache-spark dataframe pyspark apache-spark-sql

5

DataFrame의 파티셔닝을 정의하는 방법은 무엇입니까?

Spark 1.4.0에서 Spark SQL 및 DataFrames를 사용하기 시작했습니다. Scala의 DataFrames에서 사용자 지정 파티 셔 너를 정의하고 싶지만이 작업을 수행하는 방법을 보지 못했습니다. 작업중인 데이터 테이블 중 하나에는 다음 예제에 대한 silimar 계정 별 트랜잭션 목록이 포함되어 있습니다. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 …

128 scala apache-spark dataframe apache-spark-sql partitioning

14

Apache Spark DataFrame의 열 연결

Apache Spark DataFrame에서 두 열을 어떻게 연결합니까? Spark SQL에 사용할 수있는 기능이 있습니까?

116 sql apache-spark dataframe apache-spark-sql

14

Spark 데이터 프레임이 비어 있는지 확인하는 방법은 무엇입니까?

지금 은 비어 df.count > 0있는지 확인하는 데 사용해야 합니다 DataFrame. 그러나 그것은 비효율적입니다. 더 좋은 방법이 있습니까? 감사. 추신 : 비어 DataFrame있지 않은 경우 에만 저장하도록 비어 있는지 확인하고 싶습니다.

102 apache-spark apache-spark-sql

10

없음 값으로 Pyspark 데이터 프레임 열 필터링

None행 값 이있는 PySpark 데이터 프레임을 필터링하려고 합니다. df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 문자열 값으로 올바르게 필터링 할 수 있습니다. df[df.dt_mvmt == '2016-03-31'] # some results here 그러나 이것은 실패합니다. df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 그러나 각 카테고리에는 확실히 가치가 있습니다. 무슨 일이야?

100 python apache-spark dataframe pyspark apache-spark-sql

5

pyspark에서 Dataframe 열을 String 유형에서 Double 유형으로 변경하는 방법

열이 문자열 인 데이터 프레임이 있습니다. PySpark에서 열 유형을 Double 유형으로 변경하고 싶었습니다. 다음은 방법입니다. toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 로지스틱 회귀 분석을 실행하는 동안 오류가 발생하므로 이것이 문제의 원인인지 궁금합니다.

99 python apache-spark dataframe pyspark apache-spark-sql

8

지정된 스키마로 빈 DataFrame을 만드는 방법은 무엇입니까?

DataFrameScala에서 지정된 스키마 로 만들고 싶습니다 . JSON 읽기 (빈 파일 읽기를 의미 함)를 사용하려고 시도했지만 이것이 최선의 방법이라고 생각하지 않습니다.

94 scala apache-spark dataframe apache-spark-sql

6

Spark Scala에서 DataFrame의 열 이름 이름 바꾸기

DataFrameSpark-Scala에서 모든 헤더 / 열 이름을 변환하려고합니다 . 지금은 단일 열 이름 만 대체하는 다음 코드가 나옵니다. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

«apache-spark-sql» 태그된 질문