Pyspark データフレームの列を None 値でフィルタリングする質問する

Question

Column.isNull/ を使用できますColumn.isNotNull:

df.where(col("dt_mvmt").isNull())

df.where(col("dt_mvmt").isNotNull())

単に値を削除したい場合は、引数とともにNULL使用できます。na.dropsubset

df.na.drop(subset=["dt_mvmt"])

との等価性に基づく比較は、NULLSQL では未定義であるため機能しません。NULLそのため、別の値と比較しようとすると、次の結果が返されますNULL。

sqlContext.sql("SELECT NULL = NULL").show()
## +-------------+
## |(NULL = NULL)|
## +-------------+
## |         null|
## +-------------+


sqlContext.sql("SELECT NULL != NULL").show()
## +-------------------+
## |(NOT (NULL = NULL))|
## +-------------------+
## |               null|
## +-------------------+

値を比較する唯一の有効なメソッドは/NULLであり、これは/メソッド呼び出しと同等です。ISIS NOTisNullisNotNull

Answer 1

Column.isNull/ を使用できますColumn.isNotNull:

df.where(col("dt_mvmt").isNull())

df.where(col("dt_mvmt").isNotNull())

単に値を削除したい場合は、引数とともにNULL使用できます。na.dropsubset

df.na.drop(subset=["dt_mvmt"])

との等価性に基づく比較は、NULLSQL では未定義であるため機能しません。NULLそのため、別の値と比較しようとすると、次の結果が返されますNULL。

sqlContext.sql("SELECT NULL = NULL").show()
## +-------------+
## |(NULL = NULL)|
## +-------------+
## |         null|
## +-------------+


sqlContext.sql("SELECT NULL != NULL").show()
## +-------------------+
## |(NOT (NULL = NULL))|
## +-------------------+
## |               null|
## +-------------------+

値を比較する唯一の有効なメソッドは/NULLであり、これは/メソッド呼び出しと同等です。ISIS NOTisNullisNotNull

Pyspark データフレームの列を None 値でフィルタリングする質問する

ベストアンサー1

おすすめ記事