2 개의 dataFrame을 고려하십시오.
>>> aDF.show()
+---+----+
| id|datA|
+---+----+
| 1| a1|
| 2| a2|
| 3| a3|
+---+----+
과
>>> bDF.show()
+---+----+
| id|datB|
+---+----+
| 2| b2|
| 3| b3|
| 4| b4|
+---+----+
원하는 것을 달성하기위한 두 가지 방법이 있습니다.
1. 결합 조건이 다릅니다. aDF.id == bDF.id 대신
aDF.join(bDF, aDF.id == bDF.id, "outer")
이것을 쓰십시오 :
aDF.join(bDF, "id", "outer").show()
+---+----+----+
| id|datA|datB|
+---+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
| 4|null| b4|
+---+----+----+
이렇게하면 추가 드롭 프로세스가 자동으로 제거됩니다.
2. 별칭 사용 : B 특정 ID와 관련된 데이터를 잃게됩니다.
>>> from pyspark.sql.functions import col
>>> aDF.alias("a").join(bDF.alias("b"), aDF.id == bDF.id, "outer").drop(col("b.id")).show()
+----+----+----+
| id|datA|datB|
+----+----+----+
| 1| a1|null|
| 3| a3| b3|
| 2| a2| b2|
|null|null| b4|
+----+----+----+
ndf = df.drop('age')