«apache-spark» 태그된 질문

Apache Spark는 Scala로 작성된 오픈 소스 분산 데이터 처리 엔진으로 사용자에게 통합 API 및 분산 데이터 세트를 제공합니다. Apache Spark의 사용 사례는 종종 기계 / 딥 러닝, 그래프 처리와 관련이 있습니다.

10
Spark Dataframe은 중복 된 이름으로 열을 구별합니다.
따라서 Spark Dataframe에서 알 수 있듯이 여러 열의 경우 아래 데이터 프레임 스냅 샷에 표시된 것과 동일한 이름을 가질 수 있습니다. [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, …

11
Spark 오류-지원되지 않는 클래스 파일 주 버전
Mac에 Spark를 설치하려고합니다. 스파크 2.4.0과 스칼라를 설치하기 위해 home-brew를 사용했습니다. 아나콘다 환경에 PySpark를 설치했고 개발을 위해 PyCharm을 사용하고 있습니다. 내 bash 프로필로 내보냈습니다. export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH 그러나 나는 그것을 작동시킬 수 없습니다. 나는 이것이 역 추적을 읽는 자바 버전 …

1
어떤 상황에서 Apache Spark 대신 Dask를 사용할 수 있습니까? [닫은]
닫힘 . 이 질문은 의견 기반 입니다. 현재 답변을 받고 있지 않습니다. 이 질문을 개선하고 싶으십니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 3 년 전 . 이 질문 개선 현재 데이터 분석을 위해 Pandas와 Spark를 사용하고 있습니다. Dask는 병렬화 된 NumPy …

15
PyCharm을 PySpark와 연결하는 방법은 무엇입니까?
나는 아파치 스파크를 처음 사용했으며 분명히 내 맥북에 홈브류와 함께 아파치 스파크를 설치했습니다. Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. Using Spark's …


8
Scala 컴파일에서 java.lang.OutOfMemoryError : PermGen 공간을 방지하는 방법은 무엇입니까?
내 스칼라 컴파일러의 이상한 동작을 발견했습니다. 클래스를 컴파일 할 때 가끔 OutOfMemoryError가 발생합니다. 다음은 오류 메시지입니다. [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space 가끔 한 번만 발생하며 일반적으로 후속 컴파일 실행에서 오류가 발생하지 않습니다. 저는 Scala 2.9.0을 사용하고 SBT를 통해 …

5
도로의 평균 속도 계산 [닫힘]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 4 일 전 . 나는 데이터 엔지니어 면접에 갔다. 면접관이 나에게 질문을했다. 그는 나에게 상황을 알려주고 해당 시스템의 데이터 흐름을 설계하도록 …

2
많은 Spark 작업이 동시에 예약 된 경우 교착 상태
spark FIFO 스케줄러와 함께 YARN 클러스터 모드에서 실행중인 spark 2.4.4 사용. 가변 개수의 스레드가있는 스레드 풀 실행기를 사용하여 여러 개의 스파크 데이터 프레임 작업 (즉, S3에 데이터 쓰기)을 제출하고 있습니다. 스레드가 ~ 10 개이면 잘 작동하지만 수백 개의 스레드를 사용하면 Spark UI에 따라 작업이 예약되지 않은 교착 상태가있는 것으로 보입니다. …

2
Spark : 유스 케이스에서 Python이 왜 Scala보다 월등히 뛰어 납니까?
Python과 Scala를 사용할 때 Spark의 성능을 비교하기 위해 두 언어로 동일한 작업을 만들고 런타임을 비교했습니다. 두 작업이 거의 같은 시간이 걸리지 만 Python 작업은 시간이 걸렸지 만 27minScala 작업은 37min거의 40 % 더 걸렸습니다 ! Java에서도 동일한 작업을 구현했으며 37minutes너무 오래 걸렸 습니다. 이것이 어떻게 파이썬이 훨씬 빠를 수 있습니까? …

1
Pyspark df에서 PostgresSQL에 이르는 5 천만 개 이상의 최고의 글쓰기 방법
Spark 데이터 프레임에서 Postgres 테이블에 이르기까지 수백만 개의 레코드를 삽입하는 가장 효율적인 방법은 5 천만입니다. 과거에도 대량 복사 및 배치 크기 옵션을 사용하여 스파크에서 MSSQL 까지이 작업을 수행했습니다 . Postgres에 대해 비슷한 점이 있습니까? 내가 시도한 코드와 프로세스를 실행하는 데 걸린 시간을 추가하십시오. def inserter(): start = timer() sql_res.write.format("jdbc").option("numPartitions","5").option("batchsize","200000")\ .option("url", …

3
spark 2.4.4를 설치 한 후 pyspark를 실행하려고 할 때 'TypeError : integer is required (got type bytes)'오류 수정 방법
OpenJDK 13.0.1 및 python 3.8 및 spark 2.4.4를 설치했습니다. 설치를 테스트하기위한 지시 사항은 spark 설치 루트에서. \ bin \ pyspark를 실행하는 것입니다. 환경 변수 설정과 같은 스파크 설치 단계를 놓쳤는 지 확실하지 않지만 자세한 지침을 찾을 수 없습니다. 내 컴퓨터에서 파이썬 인터프리터를 실행할 수 있으므로 올바르게 설치되어 있고 "java -version"을 …

1
pandasUDF와 pyarrow 0.15.0
최근 pysparkEMR 클러스터에서 실행 되는 여러 작업에서 많은 오류가 발생하기 시작했습니다 . 침식은 java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... 그것들은 모두 apply판다 시리즈의 기능 에서 일어나는 것처럼 …

1
Apache Spark : 재 파티셔닝, 정렬 및 캐싱이 조인에 미치는 영향
테이블을 자체에 조인 할 때 Spark의 동작을 탐색 중입니다. Databricks를 사용하고 있습니다. 내 더미 시나리오는 다음과 같습니다 외부 테이블을 데이터 프레임 A로 읽습니다 (기본 파일은 델타 형식 임) 특정 열만 선택한 상태에서 데이터 프레임 B를 데이터 프레임 A로 정의 column1 및 column2의 데이터 프레임 A 및 B 조인 (예, 이해가되지 …

3
Pandas 그룹화 된 DataFrame에 Python 함수 적용-계산 속도를 높이는 가장 효율적인 방법은 무엇입니까?
나는 매우 큰 Pandas DataFrame을 다루고 있습니다. 내 데이터 세트는 다음 df설정 과 유사합니다 . import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( …

1
스파크 : UDF가 여러 번 실행 됨
다음 코드가있는 데이터 프레임이 있습니다. def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) 이제 로그를 확인한 결과 각 행마다 UDF가 3 번 실행된다는 것을 알았습니다. "test.three"열에서 "test3"을 추가하면 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.