«rdd» 태그된 질문


13
스파크-repartition () vs coalesce ()
Learning Spark에 따르면 데이터를 다시 파티션하는 것은 비용이 많이 드는 작업입니다. 또한 Spark에는 최적화 된 버전의 repartition()호출 coalesce()이있어 데이터 이동을 피할 수 있지만 RDD 파티션 수를 줄이는 경우에만 가능합니다. 내가 얻는 한 가지 차이점 repartition()은 파티션 수를 늘리거나 줄일 coalesce()수 있지만 파티션 수를 줄이면 줄일 수 있다는 것입니다. 파티션이 여러 …


2
스칼라 대 파이썬의 스파크 성능
나는 스칼라보다 파이썬을 선호합니다. 그러나 Spark는 기본적으로 스칼라로 작성되었으므로 코드가 스칼라에서 Python 버전보다 더 빨리 실행될 것으로 예상되었습니다. 그 가정으로, 1GB의 데이터에 대해 매우 일반적인 전처리 코드의 스칼라 버전을 배우고 작성하려고 생각했습니다. 데이터는 Kaggle의 SpringLeaf 경쟁에서 선택 됩니다. 데이터에 대한 개요를 제공하기 위해 (1936 차원 및 145232 행 포함). 데이터는 …

5
(왜) 캐시를 호출하거나 RDD를 유지해야합니까?
RDD (Resilient Distributed Dataset)가 텍스트 파일 또는 컬렉션 (또는 다른 RDD)에서 생성 될 때 RDD 데이터를 메모리에 저장하려면 "캐시"또는 "지속"을 명시 적으로 호출해야합니까? 또는 RDD 데이터가 기본적으로 메모리에 분산 방식으로 저장됩니까? val textFile = sc.textFile("/user/emp.txt") 내 이해에 따라 위의 단계 후에 textFile은 RDD이며 노드의 모든 / 일부 메모리에서 사용할 수 …
171 scala  apache-spark  rdd 


3
아파치 스파크 : map vs mapPartitions?
RDD map 와 mapPartitions방법 의 차이점은 무엇입니까 ? 그리고 flatMap좋아 map하거나 좋아 mapPartitions합니까? 감사. (편집) 즉, 의미 적으로 또는 실행 측면에서 차이점은 무엇입니까? def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) }, …


3
HashPartitioner는 어떻게 작동합니까?
의 문서를 읽었습니다 HashPartitioner. 불행히도 API 호출을 제외하고는 많은 설명이 없습니다. 나는 HashPartitioner키의 해시를 기반으로 분산 세트 를 분할 한다는 가정하에 있습니다. 예를 들어 내 데이터가 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 따라서 파티 셔 너는 동일한 키가 동일한 파티션에있는 다른 파티션에 이것을 넣습니다. 그러나 생성자 인수의 중요성을 이해하지 못합니다. …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.