PySparkでデータフレーム列の名前を取得するにはどうすればいいですか? 質問する

PySparkでデータフレーム列の名前を取得するにはどうすればいいですか? 質問する

pandas では、これを によって実行できますcolumn.name

しかし、Spark データフレームの列の場合はどうすれば同じことができるでしょうか?

たとえば、呼び出しプログラムには Spark データフレームがあります。spark_df

>>> spark_df.columns
['admit', 'gre', 'gpa', 'rank']

このプログラムは関数を呼び出します:my_function(spark_df['rank'])
ではmy_function、列の名前、つまり が必要です'rank'

pandas データフレームの場合は、次のように使用できます。

>>> pandas_df['rank'].name
'rank'

ベストアンサー1

スキーマから名前を取得するには、次のようにします。

spark_df.schema.names

スキーマを印刷すると視覚化にも役立ちます

spark_df.printSchema()

おすすめ記事