스파크를 실험하기 위해 VM 세트를 설정하고 나가서 하드웨어를 사용하여 클러스터를 구축하는 데 돈을 씁니다. 빠른 참고 사항 : 저는 응용 기계 학습에 대한 배경 지식이있는 학계이며 데이터 과학 분야에서 약간의 연구를 중단했습니다. 나는 컴퓨팅 도구를 사용하지만 거의 설정이 필요하지 않습니다.
VM 3 개 (마스터 1 개, 슬레이브 2 개)를 만들고 Spark를 성공적으로 설치했습니다. 모든 것이 제대로 작동하는 것으로 보입니다. 내 문제는 클러스터의 컴퓨터에서 실행되지 않는 브라우저에서 연결할 수있는 Jupyter 서버를 만드는 데 있습니다.
Jupyter 노트북을 성공적으로 설치 했으며 실행됩니다. Spark 를 사용하여 원격 서버에 연결하는 새로운 IPython 프로파일을 추가했습니다 .
이제 문제
명령
$ ipython --profile=pyspark
잘 실행되고 스파크 클러스터에 연결됩니다. 하나,
$ ipython notebook --profile=pyspark
[<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect.
기본값은 default
프로파일이 아닌 pyspark
프로파일입니다.
내 노트북 구성 pyspark
에는 다음이 있습니다.
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8880
c.NotebookApp.server_extensions.append('ipyparallel.nbextension')
c.NotebookApp.password = u'some password is here'
$ ipython --profile=pyspark notebook
? 문제는 논쟁의 순서에 의한 것일 수도 있습니다.