Windows에서 Spark를 설정하는 방법은 무엇입니까?

Question 1

Windows에서 Apache Spark를 설정하려고합니다.

조금 검색 한 결과 독립 실행 형 모드가 내가 원하는 것임을 이해합니다. Windows에서 Apache Spark를 실행하려면 어떤 바이너리를 다운로드해야합니까? 스파크 다운로드 페이지에서 hadoop 및 cdh를 사용한 배포판을 봅니다.

나는 이것에 대한 웹 참조가 없습니다. 이에 대한 단계별 가이드는 높이 평가됩니다.

Question 2

Windows에서 가장 쉬운 해결책은 소스에서 빌드하는 것입니다.

이 가이드를 거의 따를 수 있습니다 : http://spark.apache.org/docs/latest/building-spark.html

Maven을 다운로드하여 설치 MAVEN_OPTS하고 가이드에 지정된 값으로 설정 합니다.

그러나 Spark를 사용하고 있고 자신의 컴퓨터가 Windows를 실행하는 다른 이유 때문에 실제로 Windows에서 실행할 필요가 없다면 Linux 가상 컴퓨터에 Spark를 설치하는 것이 좋습니다. 시작하는 가장 간단한 방법은 Cloudera 또는 Hortonworks에서 만든 기성 이미지를 다운로드하고 번들 버전의 Spark를 사용하거나 소스에서 직접 설치하거나 spark 웹 사이트에서 얻을 수있는 컴파일 된 바이너리를 설치하는 것입니다.

Question 3

로컬 모드에서 Spark를 설치하는 단계 :

Java 7 이상을 설치합니다 . Java 설치가 완료되었는지 테스트하려면 명령 프롬프트 유형을 열고 javaEnter 키를 누르십시오. 메시지를 수신하는 경우 'Java' is not recognized as an internal or external command. 환경 변수를 구성 JAVA_HOME하고 PATHjdk의 경로를 가리켜 야합니다.
Scala를 다운로드하여 설치 합니다.

설정 SCALA_HOME에서 Control Panel\System and Security\System고토 "교수실 시스템 설정"을 추가 %SCALA_HOME%\bin환경 변수에 PATH 변수에.
Python 다운로드 링크 에서 Python 2.6 이상을 설치합니다 .
SBT를 다운로드하십시오 . 그것을 설치하고 SBT_HOME값이 <<SBT PATH>>.
HortonWorks repo 또는 git repowinutils.exe 에서 다운로드합니다 . Windows에 로컬 Hadoop 설치가 없기 때문에 생성 된 홈 디렉토리 아래의 디렉토리에 다운로드 하여 배치해야합니다 . 환경 변수에 설정 합니다.winutils.exebinHadoopHADOOP_HOME = <<Hadoop home directory>>
사전 빌드 된 Spark 패키지를 사용하므로 Hadoop Spark 다운로드 용 Spark 사전 빌드 패키지를 선택합니다 . 다운로드하고 압축을 풉니 다.

환경 변수에서 PATH 변수를 설정 SPARK_HOME하고 추가 %SPARK_HOME%\bin합니다.
실행 명령 : spark-shell
http://localhost:4040/SparkContext 웹 UI를 보려면 브라우저에서 엽니 다 .

Question 4

여기에서 스파크를 다운로드 할 수 있습니다.

http://spark.apache.org/downloads.html

이 버전을 추천합니다 : Hadoop 2 (HDP2, CDH5)

버전 1.0.0부터 Windows에서 스파크를 실행 하는 .cmd 스크립트가 있습니다.

7zip 등을 사용하여 압축을 풉니 다.

시작하려면 /bin/spark-shell.cmd --master local [2]을 실행할 수 있습니다 .

인스턴스를 구성하려면 다음 링크를 따르십시오. http://spark.apache.org/docs/latest/

Question 5

다음 방법을 사용하여 Spark를 설정할 수 있습니다.

소스에서 빌드
미리 빌드 된 릴리스 사용

Source에서 Spark 를 빌드 하는 방법에는 여러 가지가 있습니다.
먼저 SBT로 Spark 소스를 빌드하려고 시도했지만 hadoop이 필요합니다. 이러한 문제를 피하기 위해 사전 빌드 된 릴리스를 사용했습니다.

Source 대신 Hadoop 2.x 버전 용 Prebuilt 릴리스를 다운로드하여 실행했습니다. 이를 위해서는 Scala를 필수 구성 요소로 설치해야합니다.

여기에 모든 단계를 수집
했습니다. 독립 실행 형 모드에서 Windows7에서 Apache Spark를 실행하는 방법

도움이 되길 바랍니다 .. !!!

Question 6

spark-2.xx로 작업하려고 할 때 Spark 소스 코드를 빌드하는 것이 작동하지 않았습니다.

그래서 Hadoop을 사용하지는 않겠지 만, Hadoop이 내장 된 미리 빌드 된 Spark를 다운로드했습니다. spark-2.0.0-bin-hadoop2.7.tar.gz
추출 된 디렉토리에서 SPARK_HOME을 가리키고 다음에 추가하십시오 PATH.;%SPARK_HOME%\bin;
Hortonworks 리포지토리 또는 Amazon AWS 플랫폼 winutils 에서 실행 가능한 winutils 를 다운로드합니다 .
winutils.exe 실행 파일을 저장할 디렉터리를 만듭니다. 예를 들면 C : \ SparkDev \ x64입니다. %HADOOP_HOME%이 디렉토리를 가리키는 환경 변수 를 추가 한 다음 %HADOOP_HOME%\binPATH에 추가하십시오 .
명령 줄을 사용하여 디렉터리를 만듭니다.
```
mkdir C:\tmp\hive
```
다운로드 한 실행 파일을 사용하여 생성 한 파일 디렉토리에 대한 전체 권한을 unixian 형식을 사용하여 추가합니다.
```
%HADOOP_HOME%\bin\winutils.exe chmod 777 /tmp/hive
```
다음 명령 줄을 입력합니다.
```
%SPARK_HOME%\bin\spark-shell
```

Scala 명령 줄 입력은 자동으로 표시되어야합니다.

비고 : Scala를 별도로 구성 할 필요는 없습니다. 또한 내장되어 있습니다.

Question 7

다음은 최신 버전의 MS-VS가없는 경우와 같이 모든 것을 다시 빌드하지 않고 Windows에서 실행되도록하는 수정 사항입니다. (Win32 C ++ 컴파일러가 필요하지만 MS VS Community Edition을 무료로 설치할 수 있습니다.)

2015 년 11 월 최신 버전뿐만 아니라 Spark 1.2.2 및 mahout 0.10.2에서도이 작업을 시도했습니다. Scala 코드가 bash 스크립트 (mahout / bin / mahout)은 물론 작동하지 않습니다. sbin 스크립트는 Windows로 이식되지 않았으며 hadoop이 설치되지 않은 경우 winutils가 누락되었습니다.

(1) scala를 설치 한 다음 각 제품 이름 아래에있는 C : 루트에 spark / hadoop / mahout의 압축을 풉니 다.

(2) \ mahout \ bin \ mahout의 이름을 mahout.sh.was로 변경합니다 (필요하지 않음).

(3) 다음 Win32 C ++ 프로그램을 컴파일하고 실행 파일을 C : \ mahout \ bin \ mahout이라는 파일에 복사합니다 (맞습니다-Linux 실행 파일과 같은 .exe 접미사 없음).

#include "stdafx.h"
#define BUFSIZE 4096
#define VARNAME TEXT("MAHOUT_CP")
int _tmain(int argc, _TCHAR* argv[]) {
    DWORD dwLength;     LPTSTR pszBuffer;
    pszBuffer = (LPTSTR)malloc(BUFSIZE*sizeof(TCHAR));
    dwLength = GetEnvironmentVariable(VARNAME, pszBuffer, BUFSIZE);
    if (dwLength > 0) { _tprintf(TEXT("%s\n"), pszBuffer); return 0; }
    return 1;
}

(4) _CP 클래스 경로에있는 jar의 정확한 이름은 spark 및 mahout의 버전에 따라 다르지만 \ mahout \ bin \ mahout.bat 스크립트를 만들고 아래 내용을 붙여 넣습니다. 설치별로 모든 경로를 업데이트하십시오. 공백없이 8.3 경로 이름을 사용하십시오. 여기에서는 클래스 경로에 와일드 카드 / 별표를 사용할 수 없습니다.

set SCALA_HOME=C:\Progra~2\scala
set SPARK_HOME=C:\spark
set HADOOP_HOME=C:\hadoop
set MAHOUT_HOME=C:\mahout
set SPARK_SCALA_VERSION=2.10
set MASTER=local[2]
set MAHOUT_LOCAL=true
set path=%SCALA_HOME%\bin;%SPARK_HOME%\bin;%PATH%
cd /D %SPARK_HOME%
set SPARK_CP=%SPARK_HOME%\conf\;%SPARK_HOME%\lib\xxx.jar;...other jars...
set MAHOUT_CP=%MAHOUT_HOME%\lib\xxx.jar;...other jars...;%MAHOUT_HOME%\xxx.jar;...other jars...;%SPARK_CP%;%MAHOUT_HOME%\lib\spark\xxx.jar;%MAHOUT_HOME%\lib\hadoop\xxx.jar;%MAHOUT_HOME%\src\conf;%JAVA_HOME%\lib\tools.jar
start "master0" "%JAVA_HOME%\bin\java" -cp "%SPARK_CP%" -Xms1g -Xmx1g org.apache.spark.deploy.master.Master --ip localhost --port 7077 --webui-port 8082 >>out-master0.log 2>>out-master0.err
start "worker1" "%JAVA_HOME%\bin\java" -cp "%SPARK_CP%" -Xms1g -Xmx1g org.apache.spark.deploy.worker.Worker spark://localhost:7077 --webui-port 8083 >>out-worker1.log 2>>out-worker1.err
...you may add more workers here...
cd /D %MAHOUT_HOME%
"%JAVA_HOME%\bin\java" -Xmx4g -classpath "%MAHOUT_CP%" "org.apache.mahout.sparkbindings.shell.Main"

변수 MAHOUT_CP의 이름은 C ++ 코드에서 참조되므로 변경해서는 안됩니다.

물론 Mahout이 필요에 따라 Spark를 실행하므로 Spark 마스터 및 작업자를 시작하는 코드를 주석 처리 할 수 있습니다. Mahout없이 Spark를 사용하려는 경우 실행 방법을 보여주기 위해 일괄 작업에 넣었습니다.

(5) 다음 튜토리얼은 시작하기에 좋은 곳입니다.

https://mahout.apache.org/users/sparkbindings/play-with-shell.html

Mahout Spark 인스턴스는 다음 위치에서 가져올 수 있습니다.

"C:\Program Files (x86)\Google\Chrome\Application\chrome" --disable-web-security http://localhost:4040

Question 8

(! THX) : 애니 메논에 의한 가이드 거의 창 (10)에 나를 위해 일한, 난 단지 그 자식 (현재 하둡-2.8.1) 떨어져 새로운 winutils.exe를 얻을 수 있었다 https://github.com/steveloughran/winutils

Question 9

다음은 Windows 10에 Spark를 설치하고 Python에서 실행하는 7 단계입니다.

1 단계 :이 링크 ( https://spark.apache.org/downloads.html )에서 Spark 2.2.0 tar (테이프 아카이브) gz 파일을 폴더 F로 다운로드합니다. . 압축을 풀고 압축을 푼 폴더를 원하는 폴더 A로 복사합니다. spark-2.2.0-bin-hadoop2.7 폴더의 이름을 spark로 바꿉니다.

Spark 폴더의 경로를 C : \ Users \ Desktop \ A \ spark로 지정합니다.

2 단계 :이 링크 ( https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7) 에서 동일한 폴더 F에 hardoop 2.7.3 tar gz 파일을 다운로드합니다. .3.tar.gz . 압축을 풀고 압축을 푼 폴더를 동일한 폴더 A에 복사합니다. 폴더 이름을 Hadoop-2.7.3.tar에서 hadoop으로 바꿉니다. hadoop 폴더의 경로를 C : \ Users \ Desktop \ A \ hadoop이되도록합니다.

3 단계 : 새 메모장 텍스트 파일을 만듭니다. 이 빈 메모장 파일을 winutils.exe로 저장합니다 (파일 형식 : 모든 파일 사용). 이 O KB winutils.exe 파일을 spark-C : \ Users \ Desktop \ A \ spark \ bin의 bin 폴더에 복사합니다.

4 단계 : 이제 이러한 폴더를 시스템 환경에 추가해야합니다.

4a : 시스템 변수 생성 (사용자 변수가 아닌 사용자 변수는 시스템 변수의 모든 속성을 상속 함) 변수 이름 : SPARK_HOME 변수 값 : C : \ Users \ Desktop \ A \ spark

Path 시스템 변수를 찾아 편집을 클릭합니다. 여러 경로가 표시됩니다. 경로를 삭제하지 마십시오. 이 변수 값 추가-; C : \ Users \ Desktop \ A \ spark \ bin

4b : 시스템 변수 작성

변수 이름 : HADOOP_HOME 변수 값 : C : \ Users \ Desktop \ A \ hadoop

Path 시스템 변수를 찾아 편집을 클릭합니다. 이 변수 값 추가-; C : \ Users \ Desktop \ A \ hadoop \ bin

4c : 시스템 변수 만들기 변수 이름 : JAVA_HOME Windows에서 Java를 검색합니다. 마우스 오른쪽 버튼을 클릭하고 파일 위치 열기를 클릭합니다. 자바 파일 중 하나를 다시 마우스 오른쪽 버튼으로 클릭하고 파일 위치 열기를 클릭해야합니다. 이 폴더의 경로를 사용하게됩니다. 또는 C : \ Program Files \ Java를 검색 할 수 있습니다. 시스템에 설치된 Java 버전은 jre1.8.0_131입니다. 변수 값 : C : \ Program Files \ Java \ jre1.8.0_131 \ bin

Path 시스템 변수를 찾아 편집을 클릭합니다. 이 변수 값 추가-; C : \ Program Files \ Java \ jre1.8.0_131 \ bin

5 단계 : 명령 프롬프트를 열고 Spark bin 폴더로 이동합니다 (cd C : \ Users \ Desktop \ A \ spark \ bin 입력). 스파크 쉘을 입력합니다.

C:\Users\Desktop\A\spark\bin>spark-shell

시간이 걸리고 몇 가지 경고를 줄 수 있습니다. 마지막으로 스파크 버전 2.2.0에 오신 것을 환영합니다.

6 단계 : exit ()를 입력하거나 명령 프롬프트를 다시 시작하고 spark bin 폴더로 다시 이동합니다. pyspark를 입력합니다.

C:\Users\Desktop\A\spark\bin>pyspark

일부 경고 및 오류를 표시하지만 무시합니다. 효과가있다.

7 단계 : 다운로드가 완료되었습니다. 파이썬 쉘에서 직접 스파크를 실행하려면 다음을 수행하십시오. 파이썬 폴더의 스크립트로 이동하여 다음을 입력하십시오.

pip install findspark

명령 프롬프트에서.

파이썬 셸에서

import findspark
findspark.init()

필요한 모듈 가져 오기

from pyspark import SparkContext
from pyspark import SparkConf

findspark 가져 오기 및 초기화 단계를 건너 뛰려면 Python 셸에서 pyspark 가져 오기에 제공된 절차를 따르십시오.

Question 10

다음은 모든 Python 콘솔에서 실행할 수있는 간단한 최소 스크립트입니다. C : \ Apache \ spark-1.6.1에 다운로드 한 Spark 라이브러리를 추출했다고 가정합니다.

이것은 아무것도 빌드하지 않고 Windows에서 작동하며 Spark가 재귀 적 피클 링에 대해 불평하는 문제를 해결합니다.

import sys
import os
spark_home = 'C:\Apache\spark-1.6.1'

sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'python\lib\pyspark.zip')) 
sys.path.insert(0, os.path.join(spark_home, 'python\lib\py4j-0.9-src.zip')) 

# Start a spark context:
sc = pyspark.SparkContext()

# 
lines = sc.textFile(os.path.join(spark_home, "README.md")
pythonLines = lines.filter(lambda line: "Python" in line)
pythonLines.first()

Question 11

Cloudera 및 Hortonworks는 Microsoft Windows에서 HDFS를 시작하는 데 가장 적합한 도구입니다. VMWare 또는 VBox를 사용하여 Virtual Machine을 시작하여 HDFS 및 Spark, Hive, HBase, Pig, Hadoop with Scala, R, Java, Python에 대한 빌드를 설정할 수도 있습니다.