«apache-spark-sql» 태그된 질문

Apache Spark SQL은 고속 범용 클러스터 컴퓨팅 시스템 인 Spark에서 "SQL 및 구조화 된 데이터 처리"를위한 도구입니다. Hive, Parquet 등에서 데이터를 검색하고 기존 RDD 및 데이터 세트에 대해 SQL 쿼리를 실행하는 데 사용할 수 있습니다.

5
Spark DataFrame groupBy 및 내림차순 정렬 (pyspark)
pyspark (Python 2.7.9 / Spark 1.3.1)를 사용하고 있으며 내림차순으로 필터링 및 정렬해야하는 데이터 프레임 GroupObject가 있습니다. 이 코드 조각을 통해 달성하려고합니다. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) 그러나 다음과 같은 오류가 발생합니다. sort() got an unexpected keyword argument 'ascending'

10
Apache Spark에서 Dataframe의 열 값을 List로 추출
데이터 프레임의 문자열 열을 목록으로 변환하고 싶습니다. DataframeAPI 에서 찾을 수있는 것은 RDD이므로 먼저 RDD로 다시 변환 한 다음 toArrayRDD에 기능을 적용 해 보았습니다 . 이 경우 길이와 SQL이 잘 작동합니다. 그러나 RDD에서 얻은 결과에는 이와 같은 모든 요소 주위에 대괄호가 있습니다 [A00001]. 열을 목록으로 변환하는 적절한 방법이나 대괄호를 제거하는 …


8
pyspark 데이터 프레임에서 열을 삭제하는 방법
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] 두 개가 있는데 id: bigint하나를 삭제하고 싶습니다. 어떻게 할 수 있습니까?

10
Spark Dataframe은 중복 된 이름으로 열을 구별합니다.
따라서 Spark Dataframe에서 알 수 있듯이 여러 열의 경우 아래 데이터 프레임 스냅 샷에 표시된 것과 동일한 이름을 가질 수 있습니다. [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, …


1
Pyspark df에서 PostgresSQL에 이르는 5 천만 개 이상의 최고의 글쓰기 방법
Spark 데이터 프레임에서 Postgres 테이블에 이르기까지 수백만 개의 레코드를 삽입하는 가장 효율적인 방법은 5 천만입니다. 과거에도 대량 복사 및 배치 크기 옵션을 사용하여 스파크에서 MSSQL 까지이 작업을 수행했습니다 . Postgres에 대해 비슷한 점이 있습니까? 내가 시도한 코드와 프로세스를 실행하는 데 걸린 시간을 추가하십시오. def inserter(): start = timer() sql_res.write.format("jdbc").option("numPartitions","5").option("batchsize","200000")\ .option("url", …

1
스파크 : UDF가 여러 번 실행 됨
다음 코드가있는 데이터 프레임이 있습니다. def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) 이제 로그를 확인한 결과 각 행마다 UDF가 3 번 실행된다는 것을 알았습니다. "test.three"열에서 "test3"을 추가하면 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.