2
스칼라 대 파이썬의 스파크 성능
나는 스칼라보다 파이썬을 선호합니다. 그러나 Spark는 기본적으로 스칼라로 작성되었으므로 코드가 스칼라에서 Python 버전보다 더 빨리 실행될 것으로 예상되었습니다. 그 가정으로, 1GB의 데이터에 대해 매우 일반적인 전처리 코드의 스칼라 버전을 배우고 작성하려고 생각했습니다. 데이터는 Kaggle의 SpringLeaf 경쟁에서 선택 됩니다. 데이터에 대한 개요를 제공하기 위해 (1936 차원 및 145232 행 포함). 데이터는 …