pandas では、これを によって実行できますcolumn.name
。
しかし、Spark データフレームの列の場合はどうすれば同じことができるでしょうか?
たとえば、呼び出しプログラムには Spark データフレームがあります。spark_df
>>> spark_df.columns
['admit', 'gre', 'gpa', 'rank']
このプログラムは関数を呼び出します:my_function(spark_df['rank'])
ではmy_function
、列の名前、つまり が必要です'rank'
。
pandas データフレームの場合は、次のように使用できます。
>>> pandas_df['rank'].name
'rank'
ベストアンサー1
スキーマから名前を取得するには、次のようにします。
spark_df.schema.names
スキーマを印刷すると視覚化にも役立ちます
spark_df.printSchema()