프로그램 작성 apache-spark

2

내 스파크 쉘에서 함수를 실행할 때 아래와 같은 항목은 무엇을 의미합니까? [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

12

java.io.IOException : Hadoop 바이너리에서 실행 가능한 null \ bin \ winutils.exe를 찾을 수 없습니다. Windows 7에서 Eclipse 스파크

설치된 (Maven Spark 프로젝트) spark에서 간단한 작업 을 실행할 수 없습니다 Scala IDE.Windows 7 Spark 핵심 종속성이 추가되었습니다. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() 오류: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed …

92 eclipse scala apache-spark

10

Hadoop없이 Apache Spark를 실행할 수 있습니까?

Spark 와 Hadoop 간에 종속성이 있습니까? 그렇지 않다면 Hadoop 없이 Spark 를 실행할 때 놓칠 기능이 있습니까?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame groupBy 및 내림차순 정렬 (pyspark)

pyspark (Python 2.7.9 / Spark 1.3.1)를 사용하고 있으며 내림차순으로 필터링 및 정렬해야하는 데이터 프레임 GroupObject가 있습니다. 이 코드 조각을 통해 달성하려고합니다. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) 그러나 다음과 같은 오류가 발생합니다. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

18

Spark에서 드라이버의 Python 버전을 어떻게 설정합니까?

스파크와 함께 파이썬 3을 사용할 수 있도록 스파크 1.4.0-rc2를 사용하고 있습니다. export PYSPARK_PYTHON=python3.bashrc 파일에 추가 하면 python 3과 함께 Spark를 대화 형으로 실행할 수 있습니다. 그러나 로컬 모드에서 독립 실행 형 프로그램을 실행하려면 오류가 발생합니다. Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot …

88 apache-spark pyspark

12

Mac Spark-shell 오류 초기화 SparkContext

Mac OS Yosemite 10.10.5에서 spark 1.6.0 (spark-1.6.0-bin-hadoop2.4)을 시작하려고했습니다. "./bin/spark-shell". 아래와 같은 오류가 있습니다. 또한 다른 버전의 Spark를 설치하려고 시도했지만 모두 동일한 오류가 있습니다. Spark를 실행하는 것은 이번이 두 번째입니다. 내 이전 실행이 잘 작동합니다. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. …

87 apache-spark

1

Apache Spark 웹 UI에서 "단계 건너 뛰기"는 무엇을 의미합니까?

내 Spark UI에서. 건너 뛴다는 것은 무엇을 의미합니까?

87 apache-spark rdd

10

Apache Spark에서 Dataframe의 열 값을 List로 추출

데이터 프레임의 문자열 열을 목록으로 변환하고 싶습니다. DataframeAPI 에서 찾을 수있는 것은 RDD이므로 먼저 RDD로 다시 변환 한 다음 toArrayRDD에 기능을 적용 해 보았습니다 . 이 경우 길이와 SQL이 잘 작동합니다. 그러나 RDD에서 얻은 결과에는 이와 같은 모든 요소 주위에 대괄호가 있습니다 [A00001]. 열을 목록으로 변환하는 적절한 방법이나 대괄호를 제거하는 …

87 scala apache-spark apache-spark-sql

8

Spark 작업이 org.apache.spark.shuffle.MetadataFetchFailedException으로 실패하는 이유 : 추측 모드에서 셔플 0의 출력 위치가 누락 되었습니까?

추측 모드에서 Spark 작업을 실행하고 있습니다. 약 500 개의 작업과 약 500 개의 1GB gz 파일이 압축되어 있습니다. 1 ~ 2 개의 작업에 대해 계속해서 각 작업에 들어갑니다. 첨부 된 오류는 나중에 수십 번 다시 실행됩니다 (작업 완료 방지). org.apache.spark.shuffle.MetadataFetchFailedException : 셔플 0에 대한 출력 위치 누락 문제의 의미가 무엇이며 …

85 apache-spark

11

DataFrame을 Hive에 직접 저장하는 방법은 무엇입니까?

DataFrameSpark에서 Hive에 직접 저장할 수 있습니까? 변환 DataFrame을 시도한 Rdd다음 텍스트 파일로 저장 한 다음 하이브에로드했습니다. 하지만 dataframe벌집에 직접 저장할 수 있는지 궁금합니다.

85 scala apache-spark hive apache-spark-sql

2

스파크 실행기 번호, 코어 및 실행기 메모리를 조정하는 방법은 무엇입니까?

위에서 언급 한 매개 변수를 어디에서 조정하기 시작합니까? 실행기 메모리로 시작하여 실행기 수를 얻거나 코어로 시작하여 실행기 번호를 얻습니까? 나는 링크를 따랐다 . 그러나 높은 수준의 아이디어를 얻었지만 어떻게 시작하고 최종 결론에 도달해야할지 아직 확실하지 않습니다.

84 apache-spark

8

-D 매개 변수 또는 환경 변수를 Spark 작업에 전달하는 방법은 무엇입니까?

dev / prod 환경에서 Spark 작업의 Typesafe 구성 을 변경하고 싶습니다 . 이것을 달성하는 가장 쉬운 방법 -Dconfig.resource=ENVNAME은 작업 에 전달 하는 것 같습니다. 그런 다음 Typesafe 구성 라이브러리가 나를 위해 작업을 수행합니다. 해당 옵션을 작업에 직접 전달할 방법이 있습니까? 아니면 런타임에 작업 구성을 변경하는 더 좋은 방법이 있습니까? 편집하다: …

83 scala apache-spark

1

일괄 처리에서 Spark / Flink보다 Apache Beam의 이점은 무엇인가요?

Apache Beam 은 Apache Spark 및 Flink를 포함한 여러 러너 백엔드를 지원합니다. 저는 Spark / Flink에 익숙하며 일괄 처리를위한 Beam의 장단점을 확인하려고합니다. Beam 단어 수 예제를 살펴보면 약간 더 자세한 구문을 사용하여 기본 Spark / Flink 등가물과 매우 유사하다고 느낍니다. 나는 현재 그러한 작업에 대해 Spark / Flink보다 Beam을 선택하는 …

83 apache-spark apache-flink apache-beam

3

HashPartitioner는 어떻게 작동합니까?

의 문서를 읽었습니다 HashPartitioner. 불행히도 API 호출을 제외하고는 많은 설명이 없습니다. 나는 HashPartitioner키의 해시를 기반으로 분산 세트 를 분할 한다는 가정하에 있습니다. 예를 들어 내 데이터가 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 따라서 파티 셔 너는 동일한 키가 동일한 파티션에있는 다른 파티션에 이것을 넣습니다. 그러나 생성자 인수의 중요성을 이해하지 못합니다. …

82 scala apache-spark rdd partitioning

8

pyspark 데이터 프레임에서 열을 삭제하는 방법

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] 두 개가 있는데 id: bigint하나를 삭제하고 싶습니다. 어떻게 할 수 있습니까?

82 apache-spark apache-spark-sql pyspark

«apache-spark» 태그된 질문