«apache-spark» 태그된 질문

Apache Spark는 Scala로 작성된 오픈 소스 분산 데이터 처리 엔진으로 사용자에게 통합 API 및 분산 데이터 세트를 제공합니다. Apache Spark의 사용 사례는 종종 기계 / 딥 러닝, 그래프 처리와 관련이 있습니다.

23
Spark SQL의 DataFrame에서 열 유형을 어떻게 변경합니까?
내가 다음과 같은 일을한다고 가정 해보십시오. val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

8
데이터 세트에 커스텀 객체를 저장하는 방법?
Spark Datasets 소개 에 따르면 : Spark 2.0을 기대하면서 데이터 집합에 대한 몇 가지 흥미로운 개선 사항을 계획합니다. ... 사용자 지정 인코더 – 현재 다양한 유형의 인코더를 자동 생성하는 동안 사용자 지정 개체에 대한 API를 열고 싶습니다. Dataset다음과 같은 오류가 발생 하여 사용자 정의 유형을 저장하려고 시도합니다 . 데이터 세트에 …

15
Spark에서 정보 로깅을 해제하는 방법은 무엇입니까?
AWS EC2 안내서를 사용하여 Spark를 설치했으며 bin/pyspark스크립트를 사용하여 프로그램을 시작 하여 Spark 프롬프트를 표시하고 Quick Start 종료를 성공적으로 수행 할 수 있습니다. 그러나 필자의 삶에서는 INFO각 명령 후에 모든 자세한 로깅 을 중지하는 방법을 알 수 없습니다 . 응용 프로그램을 시작하는 폴더와 각 노드 에서 내 log4j.properties파일 의 아래 코드 …

8
각 그룹의 첫 번째 행을 선택하는 방법은 무엇입니까?
다음과 같이 DataFrame이 생성되었습니다. df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 결과는 다음과 같습니다. +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | …

3
Spark에서 단계는 어떻게 작업으로 분할됩니까?
다음에 대해 특정 시점마다 하나의 Spark 작업 만 실행한다고 가정 해 봅시다. 내가 지금까지 얻는 것 다음은 Spark에서 발생하는 것을 이해하는 것입니다. a SparkContext가 작성되면 각 작업자 노드가 실행기를 시작합니다. 실행기는 별도의 프로세스 (JVM)이며 드라이버 프로그램에 다시 연결됩니다. 각 실행 프로그램에는 드라이버 프로그램의 jar이 있습니다. 드라이버를 종료하면 실행 프로그램이 종료됩니다. …
143 apache-spark 

14
스파크-CSV 파일을 DataFrame으로로드 하시겠습니까?
스파크에서 CSV를 읽고 DataFrame으로 변환하여 HDFS에 저장하고 싶습니다. df.registerTempTable("table_name") 나는 시도했다 : scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") 내가 얻은 오류 : java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:276) at …


2
Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?
DataFrame임의의 값 으로 열을 추가하고 싶습니다 (각 행마다 동일). withColumn다음과 같이 사용할 때 오류가 발생 합니다. dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, …


3
아파치 스파크 : map vs mapPartitions?
RDD map 와 mapPartitions방법 의 차이점은 무엇입니까 ? 그리고 flatMap좋아 map하거나 좋아 mapPartitions합니까? 감사. (편집) 즉, 의미 적으로 또는 실행 측면에서 차이점은 무엇입니까? def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) }, …

9
Spark DataFrame에 새 열을 추가하려면 어떻게해야합니까 (PySpark 사용)?
Spark DataFrame (PySpark 1.5.1 사용)이 있고 새 열을 추가하고 싶습니다. 나는 성공하지 않고 다음을 시도했습니다. type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) 또한 이것을 사용하여 오류가 발생했습니다. my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) 그렇다면 PySpark를 사용하여 기존 DataFrame에 새 열 …

5
DataFrame의 파티셔닝을 정의하는 방법은 무엇입니까?
Spark 1.4.0에서 Spark SQL 및 DataFrames를 사용하기 시작했습니다. Scala의 DataFrames에서 사용자 지정 파티 셔 너를 정의하고 싶지만이 작업을 수행하는 방법을 보지 못했습니다. 작업중인 데이터 테이블 중 하나에는 다음 예제에 대한 silimar 계정 별 트랜잭션 목록이 포함되어 있습니다. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 …

12
Apache Spark Executor 메모리를 설정하는 방법
Apache spark executor 노드에 사용 가능한 메모리를 늘리려면 어떻게해야합니까? Apache Spark에로드하기에 적합한 2GB 파일이 있습니다. 나는 지금 한 컴퓨터에서 아파치 스파크를 실행하고 있으므로 드라이버와 실행기가 같은 컴퓨터에 있습니다. 기계에는 8GB의 메모리가 있습니다. 메모리에 캐시되도록 파일을 설정 한 후 파일 줄 수를 세려고하면 다음 오류가 발생합니다. 2014-10-25 22:25:12 WARN CacheManager:71 - …

10
RDD의 내용을 인쇄하는 방법은 무엇입니까?
컬렉션의 내용을 Spark 콘솔에 인쇄하려고합니다. 나는 유형이 있습니다 : linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] 그리고 다음 명령을 사용합니다. scala> linesWithSessionId.map(line => println(line)) 그러나 이것은 인쇄됩니다. res1 : org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] at map at : 19 RDD를 콘솔에 쓰거나 내용을 볼 수 있도록 디스크에 저장하려면 어떻게해야합니까?


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.