내 Spark UI에서. 건너 뛴다는 것은 무엇을 의미합니까?
답변:
일반적으로 캐시에서 데이터를 가져 왔으며 주어진 단계를 다시 실행할 필요가 없음을 의미합니다. 다음 단계에서 셔플 링 ( reduceByKey
)이 필요함을 보여주는 DAG와 일치합니다 . 셔플 링이 관련 될 때마다 Spark는 생성 된 데이터를 자동으로 캐시합니다 .
Shuffle은 또한 디스크에 많은 수의 중간 파일을 생성합니다. Spark 1.3부터 이러한 파일은 해당 RDD가 더 이상 사용되지 않고 가비지 수집 될 때까지 보존됩니다. 이것은 계보가 다시 계산되는 경우 셔플 파일을 다시 만들 필요가 없도록 수행됩니다.