PySpark データフレームの文字列列をトリムする 質問する

PySpark データフレームの文字列列をトリムする 質問する

CSV ファイルから Spark DataFrame を作成した後、列をトリミングしたいと思います。試したこと:

df = df.withColumn("Product", df.Product.strip())

dfはデータフレーム、Productはテーブル内の列です。

しかし、次のエラーが発生します:

列オブジェクトは呼び出し可能ではありません

ベストアンサー1

PySpark版の関数striptrim

指定された文字列列の両端のスペースをトリムします。

最初に関数をインポートし、トリミングする列を関数内に配置するようにしてください。

次のようにすれば動作するはずです:

from pyspark.sql.functions import trim
df = df.withColumn("Product", trim(df.Product))

おすすめ記事