«apache-spark» 태그된 질문

Apache Spark는 Scala로 작성된 오픈 소스 분산 데이터 처리 엔진으로 사용자에게 통합 API 및 분산 데이터 세트를 제공합니다. Apache Spark의 사용 사례는 종종 기계 / 딥 러닝, 그래프 처리와 관련이 있습니다.


12
java.io.IOException : Hadoop 바이너리에서 실행 가능한 null \ bin \ winutils.exe를 찾을 수 없습니다. Windows 7에서 Eclipse 스파크
설치된 (Maven Spark 프로젝트) spark에서 간단한 작업 을 실행할 수 없습니다 Scala IDE.Windows 7 Spark 핵심 종속성이 추가되었습니다. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() 오류: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed …


5
Spark DataFrame groupBy 및 내림차순 정렬 (pyspark)
pyspark (Python 2.7.9 / Spark 1.3.1)를 사용하고 있으며 내림차순으로 필터링 및 정렬해야하는 데이터 프레임 GroupObject가 있습니다. 이 코드 조각을 통해 달성하려고합니다. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) 그러나 다음과 같은 오류가 발생합니다. sort() got an unexpected keyword argument 'ascending'

18
Spark에서 드라이버의 Python 버전을 어떻게 설정합니까?
스파크와 함께 파이썬 3을 사용할 수 있도록 스파크 1.4.0-rc2를 사용하고 있습니다. export PYSPARK_PYTHON=python3.bashrc 파일에 추가 하면 python 3과 함께 Spark를 대화 형으로 실행할 수 있습니다. 그러나 로컬 모드에서 독립 실행 형 프로그램을 실행하려면 오류가 발생합니다. Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot …

12
Mac Spark-shell 오류 초기화 SparkContext
Mac OS Yosemite 10.10.5에서 spark 1.6.0 (spark-1.6.0-bin-hadoop2.4)을 시작하려고했습니다. "./bin/spark-shell". 아래와 같은 오류가 있습니다. 또한 다른 버전의 Spark를 설치하려고 시도했지만 모두 동일한 오류가 있습니다. Spark를 실행하는 것은 이번이 두 번째입니다. 내 이전 실행이 잘 작동합니다. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j system properly. …


10
Apache Spark에서 Dataframe의 열 값을 List로 추출
데이터 프레임의 문자열 열을 목록으로 변환하고 싶습니다. DataframeAPI 에서 찾을 수있는 것은 RDD이므로 먼저 RDD로 다시 변환 한 다음 toArrayRDD에 기능을 적용 해 보았습니다 . 이 경우 길이와 SQL이 잘 작동합니다. 그러나 RDD에서 얻은 결과에는 이와 같은 모든 요소 주위에 대괄호가 있습니다 [A00001]. 열을 목록으로 변환하는 적절한 방법이나 대괄호를 제거하는 …

8
Spark 작업이 org.apache.spark.shuffle.MetadataFetchFailedException으로 실패하는 이유 : 추측 모드에서 셔플 0의 출력 위치가 누락 되었습니까?
추측 모드에서 Spark 작업을 실행하고 있습니다. 약 500 개의 작업과 약 500 개의 1GB gz 파일이 압축되어 있습니다. 1 ~ 2 개의 작업에 대해 계속해서 각 작업에 들어갑니다. 첨부 된 오류는 나중에 수십 번 다시 실행됩니다 (작업 완료 방지). org.apache.spark.shuffle.MetadataFetchFailedException : 셔플 0에 대한 출력 위치 누락 문제의 의미가 무엇이며 …


2
스파크 실행기 번호, 코어 및 실행기 메모리를 조정하는 방법은 무엇입니까?
위에서 언급 한 매개 변수를 어디에서 조정하기 시작합니까? 실행기 메모리로 시작하여 실행기 수를 얻거나 코어로 시작하여 실행기 번호를 얻습니까? 나는 링크를 따랐다 . 그러나 높은 수준의 아이디어를 얻었지만 어떻게 시작하고 최종 결론에 도달해야할지 아직 확실하지 않습니다.

8
-D 매개 변수 또는 환경 변수를 Spark 작업에 전달하는 방법은 무엇입니까?
dev / prod 환경에서 Spark 작업의 Typesafe 구성 을 변경하고 싶습니다 . 이것을 달성하는 가장 쉬운 방법 -Dconfig.resource=ENVNAME은 작업 에 전달 하는 것 같습니다. 그런 다음 Typesafe 구성 라이브러리가 나를 위해 작업을 수행합니다. 해당 옵션을 작업에 직접 전달할 방법이 있습니까? 아니면 런타임에 작업 구성을 변경하는 더 좋은 방법이 있습니까? 편집하다: …

1
일괄 처리에서 Spark / Flink보다 Apache Beam의 이점은 무엇인가요?
Apache Beam 은 Apache Spark 및 Flink를 포함한 여러 러너 백엔드를 지원합니다. 저는 Spark / Flink에 익숙하며 일괄 처리를위한 Beam의 장단점을 확인하려고합니다. Beam 단어 수 예제를 살펴보면 약간 더 자세한 구문을 사용하여 기본 Spark / Flink 등가물과 매우 유사하다고 느낍니다. 나는 현재 그러한 작업에 대해 Spark / Flink보다 Beam을 선택하는 …

3
HashPartitioner는 어떻게 작동합니까?
의 문서를 읽었습니다 HashPartitioner. 불행히도 API 호출을 제외하고는 많은 설명이 없습니다. 나는 HashPartitioner키의 해시를 기반으로 분산 세트 를 분할 한다는 가정하에 있습니다. 예를 들어 내 데이터가 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 따라서 파티 셔 너는 동일한 키가 동일한 파티션에있는 다른 파티션에 이것을 넣습니다. 그러나 생성자 인수의 중요성을 이해하지 못합니다. …

8
pyspark 데이터 프레임에서 열을 삭제하는 방법
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] 두 개가 있는데 id: bigint하나를 삭제하고 싶습니다. 어떻게 할 수 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.