Apache Spark : Python 3에서 pyspark를 사용하는 방법


92

GH 개발 마스터에서 Spark 1.4를 빌드했으며 빌드가 잘 진행되었습니다. 그러나 내가 할 때 나는 bin/pysparkPython 2.7.9 버전을 얻습니다. 어떻게 변경할 수 있습니까?


7
이 작업을 수행하는 방법을 찾는 모든 사람 : PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark,이 경우 IPython 3 노트북을 실행합니다.
tchakravarty

답변:


144

환경 변수를 설정하십시오.

export PYSPARK_PYTHON=python3

이것이 영구적 인 변경을 원한다면 pyspark 스크립트에이 줄을 추가하십시오.


환경 변수는 / etc / profile에서 편집 할 수 있습니다. 프로필을 저장 한 후 "source / etc / profile"을 실행하는 것을 잊지 마십시오. 변경 사항을 즉시 적용 할 수 있습니다.
Phyticist

1
분명히 export PYSPARK_PYTHON=python3.5Python 3.5 사용
Phyticist

4
동일한 인터프리터를 사용 $SPARK_HOME/conf/spark-env.sh하도록 이것을 추가하는 것이 좋습니다 spark-submit.
flow2k 19

@ flow2k가 더 나은 생각입니다. Tnx
mohammad RaoofNia

32
PYSPARK_PYTHON=python3 
./bin/pyspark

IPython Notebook에서 실행하려면 다음을 작성하십시오.

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

python3액세스 할 수없는 경우 대신 경로를 전달해야합니다.

마음에 베어는 것을 (1.4.1 기준) 현재 문서 에게 오래된 지침을 가지고있다. 다행히도 패치되었습니다 .


1
IPython 노트북에 대한 명령이 올바르지 않은 것 같습니다. 다음과 같아야합니다. PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = ipython3 PYSPARK_DRIVER_PYTHON_OPTS = "notebook"./bin
pyspark

@ChrisNielsen 터미널에서.
Piotr Migdal

@ChrisNielsen Linux 또는 OS X에서 터미널 / 콘솔입니다. Windows에서 어떻게 작동하는지 모르겠습니다 (Windows에서는 Docker 컨테이너에서만 Spark를 사용했습니다).
Piotr Migdal

@SpiderRico 내 Mac에서 작동하지 않는 것 같습니다. Jupyter Notebook이 Spark에서 작동하려면 다음을 사용하십시오. PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = jupyter PYSPARK_DRIVER_PYTHON_OPTS = "notebook"./bin
Hank Chan

9

1, 프로필 수정 :vim ~/.profile

2, 파일에 코드를 추가합니다. export PYSPARK_PYTHON=python3

3, 명령 실행 : source ~/.profile

4, ./bin/pyspark


4

파일을 살펴보십시오. shebang 줄은 아마도 첫 번째 호환 가능한 실행 파일의 경로를 검색하는 'env'바이너리를 가리킬 것입니다.

python을 python3으로 변경할 수 있습니다. python3 바이너리를 하드 코딩하여 직접 사용하도록 env를 변경하십시오. 또는 python3으로 바이너리를 직접 실행하고 shebang 줄을 생략하십시오.


1
예, 파일을 살펴 보는 것이 도움이되었습니다. PYSPARK_PYTHON환경 변수 를 설정하는 데 필요 합니다.
tchakravarty

4

Jupyter Notebook의 경우 spark-env.sh명령 줄에서 아래와 같이 파일을 편집 합니다.

$ vi $SPARK_HOME/conf/spark-env.sh

파일 맨 아래로 이동하여이 행을 복사하여 붙여 넣으십시오.

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

그런 다음 다음 명령을 실행하여 노트북에서 pyspark를 시작하십시오.

$ pyspark
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.