Pandasのgroupbyによる合計の割合質問する

Question

2022-03 アップデート

この答えによるキャンサーを使用すると、transform私の最初の回答よりもはるかに良くなります。

df['sales'] / df.groupby('state')['sales'].transform('sum')

感謝このコメントによるポール・ルジューそれを表面化させるために。

オリジナル回答（2014）

ポールHの回答2 番目のオブジェクトを作成する必要があるのは正しいですgroupbyが、パーセンテージはもっと簡単な方法で計算できます。つまり、列をその合計で割るだけですgroupby。Paul state_officeHsalesの回答の冒頭をコピーします。

# From Paul H
import numpy as np
import pandas as pd
np.random.seed(0)
df = pd.DataFrame({'state': ['CA', 'WA', 'CO', 'AZ'] * 3,
                   'office_id': list(range(1, 7)) * 2,
                   'sales': [np.random.randint(100000, 999999)
                             for _ in range(12)]})
state_office = df.groupby(['state', 'office_id']).agg({'sales': 'sum'})
# Change: groupby state_office and divide by sum
state_pcts = state_office.groupby(level=0).apply(lambda x:
                                                 100 * x / float(x.sum()))

戻り値：

                     sales
state office_id           
AZ    2          16.981365
      4          19.250033
      6          63.768601
CA    1          19.331879
      3          33.858747
      5          46.809373
CO    1          36.851857
      3          19.874290
      5          43.273852
WA    2          34.707233
      4          35.511259
      6          29.781508

Answer 1

2022-03 アップデート

この答えによるキャンサーを使用すると、transform私の最初の回答よりもはるかに良くなります。

df['sales'] / df.groupby('state')['sales'].transform('sum')

感謝このコメントによるポール・ルジューそれを表面化させるために。

オリジナル回答（2014）

ポールHの回答2 番目のオブジェクトを作成する必要があるのは正しいですgroupbyが、パーセンテージはもっと簡単な方法で計算できます。つまり、列をその合計で割るだけですgroupby。Paul state_officeHsalesの回答の冒頭をコピーします。

# From Paul H
import numpy as np
import pandas as pd
np.random.seed(0)
df = pd.DataFrame({'state': ['CA', 'WA', 'CO', 'AZ'] * 3,
                   'office_id': list(range(1, 7)) * 2,
                   'sales': [np.random.randint(100000, 999999)
                             for _ in range(12)]})
state_office = df.groupby(['state', 'office_id']).agg({'sales': 'sum'})
# Change: groupby state_office and divide by sum
state_pcts = state_office.groupby(level=0).apply(lambda x:
                                                 100 * x / float(x.sum()))

戻り値：

                     sales
state office_id           
AZ    2          16.981365
      4          19.250033
      6          63.768601
CA    1          19.331879
      3          33.858747
      5          46.809373
CO    1          36.851857
      3          19.874290
      5          43.273852
WA    2          34.707233
      4          35.511259
      6          29.781508

Pandasのgroupbyによる合計の割合質問する

ベストアンサー1

2022-03 アップデート

オリジナル回答（2014）

おすすめ記事