«apache-spark» 태그된 질문

Apache Spark는 Scala로 작성된 오픈 소스 분산 데이터 처리 엔진으로 사용자에게 통합 API 및 분산 데이터 세트를 제공합니다. Apache Spark의 사용 사례는 종종 기계 / 딥 러닝, 그래프 처리와 관련이 있습니다.


13
스파크-repartition () vs coalesce ()
Learning Spark에 따르면 데이터를 다시 파티션하는 것은 비용이 많이 드는 작업입니다. 또한 Spark에는 최적화 된 버전의 repartition()호출 coalesce()이있어 데이터 이동을 피할 수 있지만 RDD 파티션 수를 줄이는 경우에만 가능합니다. 내가 얻는 한 가지 차이점 repartition()은 파티션 수를 늘리거나 줄일 coalesce()수 있지만 파티션 수를 줄이면 줄일 수 있다는 것입니다. 파티션이 여러 …


12
스파크 java.lang.OutOfMemoryError : Java 힙 공간
내 클러스터 : 마스터 1 개, 슬레이브 11 개, 각 노드에는 6GB 메모리가 있습니다. 내 설정 : spark.executor.memory=4g, Dspark.akka.frameSize=512 여기 문제가 있습니다 : 먼저 HDFS에서 RDD로 일부 데이터 (2.19GB)를 읽었습니다. val imageBundleRDD = sc.newAPIHadoopFile(...) 둘째 ,이 RDD에서 무언가를 수행하십시오. val res = imageBundleRDD.map(data => { val desPoints = threeDReconstruction(data._2, bg) …

7
직렬화 할 수없는 작업 : 객체가 아닌 클래스에서만 클로저 외부에서 함수를 호출 할 때 java.io.NotSerializableException
클로저 외부에서 함수를 호출 할 때 이상한 동작이 발생합니다. 함수가 객체에있을 때 모든 것이 작동합니다. 함수가 클래스에있을 때 get : 직렬화 할 수없는 태스크 : java.io.NotSerializableException : testing 문제는 클래스가 아닌 객체의 코드가 필요하다는 것입니다. 왜 이런 일이 일어나는지 아십니까? 스칼라 개체가 직렬화되어 있습니까 (기본값)? 이것은 작동 코드 예입니다. object …

2
Spark Standalone 클러스터의 작업자, 실행자, 코어 란 무엇입니까?
클러스터 모드 개요를 읽었 지만 Spark Standalone 클러스터 의 여러 프로세스 와 병렬 처리를 여전히 이해할 수 없습니다 . 작업자가 JVM 프로세스입니까? 나는을 실행하고 bin\start-slave.sh실제로 JVM 인 작업자를 생성했다는 것을 알았습니다. 위 링크에 따라 실행 프로그램은 작업을 실행하는 작업자 노드의 응용 프로그램에 대해 시작된 프로세스입니다. 집행자는 또한 JVM입니다. 이것들은 나의 …

13
Spark 데이터 프레임에 전체 열 내용을 표시하는 방법은 무엇입니까?
spark-csv를 사용하여 데이터를 DataFrame에로드합니다. 간단한 쿼리를 수행하고 내용을 표시하고 싶습니다. val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() 열이 잘린 것 같습니다. scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …


13
pyspark에서 데이터 프레임 열 이름을 변경하는 방법은 무엇입니까?
팬더 배경에서 왔으며 CSV 파일의 데이터를 데이터 프레임으로 읽은 다음 간단한 명령을 사용하여 열 이름을 유용한 것으로 변경하는 데 익숙합니다. df.columns = new_column_name_list 그러나 sqlContext를 사용하여 생성 된 pyspark 데이터 프레임에서도 동일하게 작동하지 않습니다. 이 작업을 쉽게 수행 할 수있는 유일한 해결책은 다음과 같습니다. df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt") oldSchema …

8
Apache Spark : 코어 수와 실행기 수
YARN에서 Spark 작업을 실행할 때 코어 수와 실행기 수의 관계를 이해하려고합니다. 테스트 환경은 다음과 같습니다. 데이터 노드 수 : 3 데이터 노드 머신 사양 : CPU : 코어 i7-4790 (코어 수 : 4, 스레드 수 : 8) RAM : 32GB (8GB x 4) HDD : 8TB (2TB x 4) 네트워크 …

20
스파크 콘솔에서 정보 메시지 표시를 중지하는 방법은 무엇입니까?
스파크 셸에서 오는 다양한 메시지를 중지하고 싶습니다. log4j.properties이 메시지를 멈추기 위해 파일 을 편집하려고했습니다 . 내용은 다음과 같습니다 log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR …


2
스칼라 대 파이썬의 스파크 성능
나는 스칼라보다 파이썬을 선호합니다. 그러나 Spark는 기본적으로 스칼라로 작성되었으므로 코드가 스칼라에서 Python 버전보다 더 빨리 실행될 것으로 예상되었습니다. 그 가정으로, 1GB의 데이터에 대해 매우 일반적인 전처리 코드의 스칼라 버전을 배우고 작성하려고 생각했습니다. 데이터는 Kaggle의 SpringLeaf 경쟁에서 선택 됩니다. 데이터에 대한 개요를 제공하기 위해 (1936 차원 및 145232 행 포함). 데이터는 …

5
(왜) 캐시를 호출하거나 RDD를 유지해야합니까?
RDD (Resilient Distributed Dataset)가 텍스트 파일 또는 컬렉션 (또는 다른 RDD)에서 생성 될 때 RDD 데이터를 메모리에 저장하려면 "캐시"또는 "지속"을 명시 적으로 호출해야합니까? 또는 RDD 데이터가 기본적으로 메모리에 분산 방식으로 저장됩니까? val textFile = sc.textFile("/user/emp.txt") 내 이해에 따라 위의 단계 후에 textFile은 RDD이며 노드의 모든 / 일부 메모리에서 사용할 수 …
171 scala  apache-spark  rdd 

6
스파크 작업에 항아리 추가-스파크 제출
사실 ... 그것은 꽤 많이 논의되었습니다. 그러나 jar / executor / driver 구성 또는 옵션에서 jar 참조 복제를 포함하여 많은 모호성과 일부 답변이 제공됩니다. 모호하거나 생략 된 세부 사항 다음의 모호성, 불분명하거나 생략 된 세부 사항은 각 옵션에 대해 명확해야합니다. ClassPath가 영향을받는 방법 운전사 집행자 (작업 실행) 양자 모두 전혀 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.