以前この質問をここで見たことがあり、そこから教訓を得ました。しかし、動作するはずなのになぜエラーが発生するのかわかりません。
いくつかのルールに従って、既存の Spark に新しい列を作成したいと思いますDataFrame
。以下は私が書いたものです。iris_spark は、3 つの異なるカテゴリを持つカテゴリ変数 iris_spark を含むデータ フレームです。
from pyspark.sql import functions as F
iris_spark_df = iris_spark.withColumn(
"Class",
F.when(iris_spark.iris_class == 'Iris-setosa', 0, F.when(iris_spark.iris_class == 'Iris-versicolor',1)).otherwise(2))
次のエラーがスローされます。
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))
TypeError: when() takes exactly 2 arguments (3 given)
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-157-21818c7dc060> in <module>()
----> 1 iris_spark_df=iris_spark.withColumn("Class",F.when(iris_spark.iris_class=='Iris-setosa',0,F.when(iris_spark.iris_class=='Iris-versicolor',1)))
TypeError: when() takes exactly 2 arguments (3 given)
理由が分かりますか?
ベストアンサー1
正しい構造は次のいずれかです。
(when(col("iris_class") == 'Iris-setosa', 0)
.when(col("iris_class") == 'Iris-versicolor', 1)
.otherwise(2))
これは次の式と同等である。
CASE
WHEN (iris_class = 'Iris-setosa') THEN 0
WHEN (iris_class = 'Iris-versicolor') THEN 1
ELSE 2
END
または:
(when(col("iris_class") == 'Iris-setosa', 0)
.otherwise(when(col("iris_class") == 'Iris-versicolor', 1)
.otherwise(2)))
これは次と同等です:
CASE WHEN (iris_class = 'Iris-setosa') THEN 0
ELSE CASE WHEN (iris_class = 'Iris-versicolor') THEN 1
ELSE 2
END
END
一般的な構文:
when(condition, value).when(...)
または
when(condition, value).otherwise(...)
おそらく、HiveIF
条件文と混同しているのでしょう:
IF(condition, if-true, if-false)
Hive をサポートする生の SQL でのみ使用できます。