PySparkでデータフレーム列の名前を取得するにはどうすればいいですか? 質問する

2024-07-05 • tag-icon

dataframe apache-spark pyspark apache-spark-sql

pandas では、これをによって実行できますcolumn.name。

しかし、Spark データフレームの列の場合はどうすれば同じことができるでしょうか?

たとえば、呼び出しプログラムには Spark データフレームがあります。spark_df

>>> spark_df.columns
['admit', 'gre', 'gpa', 'rank']

このプログラムは関数を呼び出します:my_function(spark_df['rank'])
ではmy_function、列の名前、つまりが必要です'rank'。

pandas データフレームの場合は、次のように使用できます。

>>> pandas_df['rank'].name
'rank'

スキーマから名前を取得するには、次のようにします。

spark_df.schema.names

スキーマを印刷すると視覚化にも役立ちます

spark_df.printSchema()

おすすめ記事