«apache-spark» 태그된 질문

Apache Spark는 Scala로 작성된 오픈 소스 분산 데이터 처리 엔진으로 사용자에게 통합 API 및 분산 데이터 세트를 제공합니다. Apache Spark의 사용 사례는 종종 기계 / 딥 러닝, 그래프 처리와 관련이 있습니다.

19
파이썬 셸에서 pyspark 가져 오기
이것은 답변이없는 다른 포럼에있는 다른 사람의 질문의 사본이므로 동일한 문제가 있으므로 여기서 다시 질문 할 것이라고 생각했습니다. ( http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 참조 ) 내 컴퓨터에 Spark가 제대로 설치되어 있으며 ./bin/pyspark를 Python 인터프리터로 사용할 때 오류없이 pyspark 모듈로 Python 프로그램을 실행할 수 있습니다. 그러나 일반 Python 셸을 실행하려고 할 때 pyspark 모듈을 가져 …

12
Spark로 CSV 파일로드
저는 Spark를 처음 사용하고 Spark를 사용하여 파일에서 CSV 데이터를 읽으려고합니다. 내가하는 일은 다음과 같습니다. sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() 이 호출이 내 파일의 첫 번째 두 열 목록을 제공 할 것으로 예상하지만이 오류가 발생합니다. File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range 내 CSV 파일이 …

13
spark-csv를 사용하여 단일 CSV 파일 작성
https://github.com/databricks/spark-csv를 사용 하고 있습니다. 단일 CSV를 작성하려고하지만 할 수 없습니다. 폴더를 만들고 있습니다. 경로 및 파일 이름과 같은 매개 변수를 가져와 해당 CSV 파일을 작성하는 Scala 함수가 필요합니다.

8
Spark에서 출력 디렉터리를 덮어 쓰는 방법
매분 데이터 세트를 생성하는 스파크 스트리밍 응용 프로그램이 있습니다. 처리 된 데이터의 결과를 저장 / 덮어 쓰기해야합니다. org.apache.hadoop.mapred.FileAlreadyExistsException 데이터 세트를 덮어 쓰려고하면 실행이 중지됩니다. Spark 속성을 설정 set("spark.files.overwrite","true")했지만 운이 없습니다. Spark에서 파일을 덮어 쓰거나 미리 삭제하는 방법은 무엇입니까?
107 apache-spark 



4
Spark Kill 실행 애플리케이션
다른 애플리케이션에 리소스가 할당되지 않는 모든 코어를 차지하는 Spark 애플리케이션이 실행 중입니다. 나는 몇 가지 빠른 조사를 수행했으며 사람들은 YARN kill 또는 / bin / spark-class를 사용하여 명령을 죽일 것을 제안했습니다. 그러나 CDH 버전을 사용하고 있으며 / bin / spark-class는 전혀 존재하지 않으며 YARN kill 응용 프로그램도 작동하지 않습니다. 나와 …

14
HDFS 대신 sc.textFile에서 로컬 파일을로드하는 방법
나는 위대한 스파크 튜토리얼을 따르고 있습니다. 그래서 46m : 00s에서로드하려고 README.md하지만 내가하는 일에 실패하는 것입니다. $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called with curMem=0, maxMem=278302556 14/12/04 …

10
없음 값으로 Pyspark 데이터 프레임 열 필터링
None행 값 이있는 PySpark 데이터 프레임을 필터링하려고 합니다. df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 문자열 값으로 올바르게 필터링 할 수 있습니다. df[df.dt_mvmt == '2016-03-31'] # some results here 그러나 이것은 실패합니다. df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 그러나 각 카테고리에는 확실히 가치가 있습니다. 무슨 일이야?

5
pyspark에서 Dataframe 열을 String 유형에서 Double 유형으로 변경하는 방법
열이 문자열 인 데이터 프레임이 있습니다. PySpark에서 열 유형을 Double 유형으로 변경하고 싶었습니다. 다음은 방법입니다. toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 로지스틱 회귀 분석을 실행하는 동안 오류가 발생하므로 이것이 문제의 원인인지 궁금합니다.


10
Windows에서 Spark를 설정하는 방법은 무엇입니까?
Windows에서 Apache Spark를 설정하려고합니다. 조금 검색 한 결과 독립 실행 형 모드가 내가 원하는 것임을 이해합니다. Windows에서 Apache Spark를 실행하려면 어떤 바이너리를 다운로드해야합니까? 스파크 다운로드 페이지에서 hadoop 및 cdh를 사용한 배포판을 봅니다. 나는 이것에 대한 웹 참조가 없습니다. 이에 대한 단계별 가이드는 높이 평가됩니다.

14
Spark-앱을 제출할 때 "구성에 마스터 URL을 설정해야합니다"오류
로컬 모드에서 문제없이 실행되는 Spark 앱이 있지만 Spark 클러스터에 제출할 때 몇 가지 문제가 있습니다. 오류 메시지는 다음과 같습니다. 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858) at …



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.