".csv 파일을 pyspark 데이터 프레임으로 가져 오려면 어떻게해야합니까?" -이를 수행하는 방법은 여러 가지가 있습니다. 가장 간단한 방법은 Databrick의 spark-csv 모듈로 pyspark를 시작하는 것입니다. pyspark를 시작 하여이 작업을 수행 할 수 있습니다
pyspark --packages com.databricks:spark-csv_2.10:1.4.0
다음 단계를 수행 할 수 있습니다.
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')
다른 방법은 텍스트 파일에서 다음을 사용하여 rdd로 읽는 것입니다.
myrdd = sc.textFile("yourfile.csv").map(lambda line: line.split(","))
그런 다음 모든 항목이 스키마에 맞는 형식 (예 : Int, Strings, Floats)이되도록 데이터를 변환하십시오. 그런 다음 사용하고 싶을 것입니다
>>> from pyspark.sql import Row
>>> Person = Row('name', 'age')
>>> person = rdd.map(lambda r: Person(*r))
>>> df2 = sqlContext.createDataFrame(person)
>>> df2.collect()
[Row(name=u'Alice', age=1)]
>>> from pyspark.sql.types import *
>>> schema = StructType([
... StructField("name", StringType(), True),
... StructField("age", IntegerType(), True)])
>>> df3 = sqlContext.createDataFrame(rdd, schema)
>>> df3.collect()
[Row(name=u'Alice', age=1)]
참조 : http://spark.apache.org/docs/1.6.1/api/python/pyspark.sql.html#pyspark.sql.Row
"또한 xlsx 파일을 어떻게 가져올 수 있는지 알려주십시오." -Excel 파일은 "빅 데이터"에서 사용되지 않습니다. Spark는 큰 파일이나 데이터베이스와 함께 사용됩니다. 크기가 50GB 인 Excel 파일이 있으면 문제가있는 것입니다. Excel은 그 크기의 파일을 열 수도 없습니다. 내 경험으로는 20MB 이상이면 Excel이 죽습니다.