«pyspark» 태그된 질문

Spark Python API (PySpark)는 apache-spark 프로그래밍 모델을 Python에 노출합니다.

10
Spark Dataframe은 중복 된 이름으로 열을 구별합니다.
따라서 Spark Dataframe에서 알 수 있듯이 여러 열의 경우 아래 데이터 프레임 스냅 샷에 표시된 것과 동일한 이름을 가질 수 있습니다. [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, …

11
Spark 오류-지원되지 않는 클래스 파일 주 버전
Mac에 Spark를 설치하려고합니다. 스파크 2.4.0과 스칼라를 설치하기 위해 home-brew를 사용했습니다. 아나콘다 환경에 PySpark를 설치했고 개발을 위해 PyCharm을 사용하고 있습니다. 내 bash 프로필로 내보냈습니다. export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH 그러나 나는 그것을 작동시킬 수 없습니다. 나는 이것이 역 추적을 읽는 자바 버전 …

15
PyCharm을 PySpark와 연결하는 방법은 무엇입니까?
나는 아파치 스파크를 처음 사용했으며 분명히 내 맥북에 홈브류와 함께 아파치 스파크를 설치했습니다. Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for more information. Using Spark's …


2
Spark : 유스 케이스에서 Python이 왜 Scala보다 월등히 뛰어 납니까?
Python과 Scala를 사용할 때 Spark의 성능을 비교하기 위해 두 언어로 동일한 작업을 만들고 런타임을 비교했습니다. 두 작업이 거의 같은 시간이 걸리지 만 Python 작업은 시간이 걸렸지 만 27minScala 작업은 37min거의 40 % 더 걸렸습니다 ! Java에서도 동일한 작업을 구현했으며 37minutes너무 오래 걸렸 습니다. 이것이 어떻게 파이썬이 훨씬 빠를 수 있습니까? …

1
Pyspark df에서 PostgresSQL에 이르는 5 천만 개 이상의 최고의 글쓰기 방법
Spark 데이터 프레임에서 Postgres 테이블에 이르기까지 수백만 개의 레코드를 삽입하는 가장 효율적인 방법은 5 천만입니다. 과거에도 대량 복사 및 배치 크기 옵션을 사용하여 스파크에서 MSSQL 까지이 작업을 수행했습니다 . Postgres에 대해 비슷한 점이 있습니까? 내가 시도한 코드와 프로세스를 실행하는 데 걸린 시간을 추가하십시오. def inserter(): start = timer() sql_res.write.format("jdbc").option("numPartitions","5").option("batchsize","200000")\ .option("url", …

3
spark 2.4.4를 설치 한 후 pyspark를 실행하려고 할 때 'TypeError : integer is required (got type bytes)'오류 수정 방법
OpenJDK 13.0.1 및 python 3.8 및 spark 2.4.4를 설치했습니다. 설치를 테스트하기위한 지시 사항은 spark 설치 루트에서. \ bin \ pyspark를 실행하는 것입니다. 환경 변수 설정과 같은 스파크 설치 단계를 놓쳤는 지 확실하지 않지만 자세한 지침을 찾을 수 없습니다. 내 컴퓨터에서 파이썬 인터프리터를 실행할 수 있으므로 올바르게 설치되어 있고 "java -version"을 …

1
pandasUDF와 pyarrow 0.15.0
최근 pysparkEMR 클러스터에서 실행 되는 여러 작업에서 많은 오류가 발생하기 시작했습니다 . 침식은 java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... 그것들은 모두 apply판다 시리즈의 기능 에서 일어나는 것처럼 …

1
Apache Spark : 재 파티셔닝, 정렬 및 캐싱이 조인에 미치는 영향
테이블을 자체에 조인 할 때 Spark의 동작을 탐색 중입니다. Databricks를 사용하고 있습니다. 내 더미 시나리오는 다음과 같습니다 외부 테이블을 데이터 프레임 A로 읽습니다 (기본 파일은 델타 형식 임) 특정 열만 선택한 상태에서 데이터 프레임 B를 데이터 프레임 A로 정의 column1 및 column2의 데이터 프레임 A 및 B 조인 (예, 이해가되지 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.