文字列を含む Pandas データフレームをピボットする - 「集計する数値型がありません」というエラー質問する

Question

のデフォルトaggfuncはpivot_tableでありnp.sum、文字列をどう処理すればよいかがわからず、インデックスが何であるべきかが適切に示されていません。次のようなものを試してみてください:

pivot_table = unified_df.pivot_table(index=['id', 'contact_id'],
                                     columns='question', 
                                     values='response_answer',
                                     aggfunc=lambda x: ' '.join(x))

これにより、ペアごとに 1 行が明示的に設定され、値id, contact_idのセットがでピボットされます。は、生データに同じ質問に対する複数の回答がある場合に、それらをスペースで連結することを保証します。の構文は、pandas のバージョンによって異なる場合があります。response_answerquestionaggfuncpivot_table

簡単な例を以下に示します。

In [24]: import pandas as pd

In [25]: import random

In [26]: df = pd.DataFrame({'id':[100*random.randint(10, 50) for _ in range(100)], 'question': [str(random.randint(0,3)) for _ in range(100)], 'response': [str(random.randint(100,120)) for _ in range(100)]})

In [27]: df.head()
Out[27]:
     id question response
0  3100        1      116
1  4500        2      113
2  5000        1      120
3  3900        2      103
4  4300        0      117

In [28]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 0 to 99
Data columns (total 3 columns):
id          100 non-null int64
question    100 non-null object
response    100 non-null object
dtypes: int64(1), object(2)
memory usage: 3.1+ KB

In [29]: df.pivot_table(index='id', columns='question', values='response', aggfunc=lambda x: ' '.join(x)).head()
Out[29]:
question        0        1    2        3
id
1000      110 120      NaN  100      NaN
1100          NaN  106 108  104      NaN
1200      104 113      119  NaN      101
1300          102      NaN  116  108 120
1400          NaN      NaN  116      NaN

Answer 1

のデフォルトaggfuncはpivot_tableでありnp.sum、文字列をどう処理すればよいかがわからず、インデックスが何であるべきかが適切に示されていません。次のようなものを試してみてください:

pivot_table = unified_df.pivot_table(index=['id', 'contact_id'],
                                     columns='question', 
                                     values='response_answer',
                                     aggfunc=lambda x: ' '.join(x))

これにより、ペアごとに 1 行が明示的に設定され、値id, contact_idのセットがでピボットされます。は、生データに同じ質問に対する複数の回答がある場合に、それらをスペースで連結することを保証します。の構文は、pandas のバージョンによって異なる場合があります。response_answerquestionaggfuncpivot_table

簡単な例を以下に示します。

In [24]: import pandas as pd

In [25]: import random

In [26]: df = pd.DataFrame({'id':[100*random.randint(10, 50) for _ in range(100)], 'question': [str(random.randint(0,3)) for _ in range(100)], 'response': [str(random.randint(100,120)) for _ in range(100)]})

In [27]: df.head()
Out[27]:
     id question response
0  3100        1      116
1  4500        2      113
2  5000        1      120
3  3900        2      103
4  4300        0      117

In [28]: df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 0 to 99
Data columns (total 3 columns):
id          100 non-null int64
question    100 non-null object
response    100 non-null object
dtypes: int64(1), object(2)
memory usage: 3.1+ KB

In [29]: df.pivot_table(index='id', columns='question', values='response', aggfunc=lambda x: ' '.join(x)).head()
Out[29]:
question        0        1    2        3
id
1000      110 120      NaN  100      NaN
1100          NaN  106 108  104      NaN
1200      104 113      119  NaN      101
1300          102      NaN  116  108 120
1400          NaN      NaN  116      NaN

文字列を含む Pandas データフレームをピボットする - 「集計する数値型がありません」というエラー質問する

ベストアンサー1

おすすめ記事