«pyspark-sql» 태그된 질문

13
pyspark에서 데이터 프레임 열 이름을 변경하는 방법은 무엇입니까?
팬더 배경에서 왔으며 CSV 파일의 데이터를 데이터 프레임으로 읽은 다음 간단한 명령을 사용하여 열 이름을 유용한 것으로 변경하는 데 익숙합니다. df.columns = new_column_name_list 그러나 sqlContext를 사용하여 생성 된 pyspark 데이터 프레임에서도 동일하게 작동하지 않습니다. 이 작업을 쉽게 수행 할 수있는 유일한 해결책은 다음과 같습니다. df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt") oldSchema …

9
pyspark 데이터 프레임에 고유 한 열 값 표시 : python
Pandas에 대한 pyspark 데이터 프레임 대안을 제안하십시오 df['col'].unique(). pyspark 데이터 프레임 열의 모든 고유 값을 나열하고 싶습니다. SQL 유형 방식이 아닙니다 (registertemplate 다음 고유 값에 대한 SQL 쿼리). 또한 필요하지 않으며 groupby->countDistinct대신 해당 열에서 고유 한 값을 확인하고 싶습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.