«apache-spark-sql» 태그된 질문

Apache Spark SQL은 고속 범용 클러스터 컴퓨팅 시스템 인 Spark에서 "SQL 및 구조화 된 데이터 처리"를위한 도구입니다. Hive, Parquet 등에서 데이터를 검색하고 기존 RDD 및 데이터 세트에 대해 SQL 쿼리를 실행하는 데 사용할 수 있습니다.


23
Spark SQL의 DataFrame에서 열 유형을 어떻게 변경합니까?
내가 다음과 같은 일을한다고 가정 해보십시오. val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

8
각 그룹의 첫 번째 행을 선택하는 방법은 무엇입니까?
다음과 같이 DataFrame이 생성되었습니다. df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 결과는 다음과 같습니다. +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | …

14
스파크-CSV 파일을 DataFrame으로로드 하시겠습니까?
스파크에서 CSV를 읽고 DataFrame으로 변환하여 HDFS에 저장하고 싶습니다. df.registerTempTable("table_name") 나는 시도했다 : scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 내가 얻은 오류 : java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at …


2
Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?
DataFrame임의의 값 으로 열을 추가하고 싶습니다 (각 행마다 동일). withColumn다음과 같이 사용할 때 오류가 발생 합니다. dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, …


9
Spark DataFrame에 새 열을 추가하려면 어떻게해야합니까 (PySpark 사용)?
Spark DataFrame (PySpark 1.5.1 사용)이 있고 새 열을 추가하고 싶습니다. 나는 성공하지 않고 다음을 시도했습니다. type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) 또한 이것을 사용하여 오류가 발생했습니다. my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) 그렇다면 PySpark를 사용하여 기존 DataFrame에 새 열 …

5
DataFrame의 파티셔닝을 정의하는 방법은 무엇입니까?
Spark 1.4.0에서 Spark SQL 및 DataFrames를 사용하기 시작했습니다. Scala의 DataFrames에서 사용자 지정 파티 셔 너를 정의하고 싶지만이 작업을 수행하는 방법을 보지 못했습니다. 작업중인 데이터 테이블 중 하나에는 다음 예제에 대한 silimar 계정 별 트랜잭션 목록이 포함되어 있습니다. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 …



10
없음 값으로 Pyspark 데이터 프레임 열 필터링
None행 값 이있는 PySpark 데이터 프레임을 필터링하려고 합니다. df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 문자열 값으로 올바르게 필터링 할 수 있습니다. df[df.dt_mvmt == '2016-03-31'] # some results here 그러나 이것은 실패합니다. df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 그러나 각 카테고리에는 확실히 가치가 있습니다. 무슨 일이야?

5
pyspark에서 Dataframe 열을 String 유형에서 Double 유형으로 변경하는 방법
열이 문자열 인 데이터 프레임이 있습니다. PySpark에서 열 유형을 Double 유형으로 변경하고 싶었습니다. 다음은 방법입니다. toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 로지스틱 회귀 분석을 실행하는 동안 오류가 발생하므로 이것이 문제의 원인인지 궁금합니다.



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.