Apache Spark에서 Dataframe의 열 값을 List로 추출


87

데이터 프레임의 문자열 열을 목록으로 변환하고 싶습니다. DataframeAPI 에서 찾을 수있는 것은 RDD이므로 먼저 RDD로 다시 변환 한 다음 toArrayRDD에 기능을 적용 해 보았습니다 . 이 경우 길이와 SQL이 잘 작동합니다. 그러나 RDD에서 얻은 결과에는 이와 같은 모든 요소 주위에 대괄호가 있습니다 [A00001]. 열을 목록으로 변환하는 적절한 방법이나 대괄호를 제거하는 방법이 있는지 궁금합니다.

모든 제안을 주시면 감사하겠습니다. 감사합니다!


답변:


117

단일 목록을 포함하는 컬렉션을 반환해야합니다.

dataFrame.select("YOUR_COLUMN_NAME").rdd.map(r => r(0)).collect()

매핑이 없으면 데이터베이스의 모든 열을 포함하는 Row 개체 만 가져옵니다.

이것은 아마도 모든 유형의 목록을 얻을 것임을 명심하십시오. 결과 유형을 지정하려면 r => r(0).asInstanceOf[YOUR_TYPE]매핑에 .asInstanceOf [YOUR_TYPE]을 사용할 수 있습니다.

추신 자동 변환으로 인해 .rdd부분을 건너 뛸 수 있습니다 .


3
이상한 이유 때문에 다른 방식으로 작동합니다 (Spark 2.1.0). collect().map(r => r(0))이 순서에는 단점이 있습니까?
Boern

1
속도가 느릴 수 있습니다. 솔루션은 먼저 드라이버의 모든 데이터를 수집하고 그 후에는 단일 드라이버의 처리 능력 만 사용하여 드라이버에서 매핑을 수행합니다 (실행기 지원 없음).
TheMP

73

Spark 2.x 및 Scala 2.11 사용

특정 열의 값을 List로 변환하는 세 가지 가능한 방법을 생각합니다.

모든 접근 방식에 대한 공통 코드 조각

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.getOrCreate    
import spark.implicits._ // for .toDF() method

val df = Seq(
    ("first", 2.0),
    ("test", 1.5), 
    ("choose", 8.0)
  ).toDF("id", "val")

접근 방식 1

df.select("id").collect().map(_(0)).toList
// res9: List[Any] = List(one, two, three)

지금 벌어지는 일은? Driver에 데이터를 수집 collect()하고 각 레코드에서 요소 0을 선택합니다.

이것은 훌륭한 방법이 될 수 없습니다. 다음 접근 방식으로 개선합시다.


접근 방식 2

df.select("id").rdd.map(r => r(0)).collect.toList 
//res10: List[Any] = List(one, two, three)

어떻게 더 낫습니까? 단일 드라이버가 아닌 작업자간에 맵 변환로드를 분산했습니다.

I의 노하우는 rdd.map(r => r(0))없습니다 당신이 우아한 보인다 않습니다. 따라서 다음 접근 방식에서 해결하겠습니다.


접근 3

df.select("id").map(r => r.getString(0)).collect.toList 
//res11: List[String] = List(one, two, three)

여기서는 DataFrame을 RDD로 변환하지 않습니다. 에서 봐 map그것을 수락하지 않습니다 r => r(0)(또는 _(0)인해 DataFrame에서 인코더 문제 이전의 방식으로). 따라서 결국 사용 r => r.getString(0)하고 Spark의 다음 버전에서 해결 될 것입니다.

결론

모든 옵션은 동일한 출력을 제공하지만 2와 3은 효과적이며 마지막으로 세 번째 옵션은 효과적이고 우아합니다 (내 생각에는).

Databricks 노트북


25

나는 주어진 대답이 Scala에 대해 가정된다는 것을 알고 있으므로 PySpark 사용자가 궁금한 경우를 대비하여 Python 코드의 작은 스 니펫을 제공하고 있습니다. 구문은 주어진 대답과 유사하지만 목록을 제대로 표시하려면 실제로 매핑 함수에서 열 이름을 두 번 참조해야하며 select 문이 필요하지 않습니다.

즉 "Raw"라는 열을 포함하는 DataFrame

각 항목이 "Raw"의 행 값인 목록으로 결합 된 "Raw"의 각 행 값을 얻으려면 다음을 사용합니다.

MyDataFrame.rdd.map(lambda x: x.Raw).collect()

4
이것은 Row 객체의 목록을 제공합니다. 값 목록을 원하면 어떻게합니까?
ThatDataGuy

이것은 값 목록을 제공합니다.
abby sobh

공유 해주셔서 감사합니다! 이 최대 속도를 할 수있는 방법이 있다면 나를 위해이 작품이 훌륭한 그냥 궁금, 그것은 꽤 느린 실행
Mojgan Mazouchi

5

Scala 및 Spark 2+에서 다음을 시도하십시오 (열 이름이 "s"라고 가정). df.select('s).as[String].collect


3
sqlContext.sql(" select filename from tempTable").rdd.map(r => r(0)).collect.toList.foreach(out_streamfn.println) //remove brackets

완벽하게 작동합니다


2
from pyspark.sql.functions import col

df.select(col("column_name")).collect()

여기에 수집은 차례로 목록으로 변환하는 함수입니다. 방대한 데이터 세트의 목록을 사용하십시오. 성능이 저하됩니다. 데이터를 확인하는 것이 좋습니다.


1
List<String> whatever_list = df.toJavaRDD().map(new Function<Row, String>() {
    public String call(Row row) {
        return row.getAs("column_name").toString();
    }
}).collect();

logger.info(String.format("list is %s",whatever_list)); //verification

아무도 java (Real Programming Language)에 대한 해결책을 제시하지 않았기 때문에 나중에 감사 할 수 있습니다.


0

목록을 제공하는 업데이트 된 솔루션 :

dataFrame.select("YOUR_COLUMN_NAME").map(r => r.getString(0)).collect.toList

-1

이것은 자바 답변입니다.

df.select("id").collectAsList();

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.