のドキュメント出力列名をキーとする辞書を使用して、groupby オブジェクトに一度に複数の関数を適用する方法を示します。
In [563]: grouped['D'].agg({'result1' : np.sum,
.....: 'result2' : np.mean})
.....:
Out[563]:
result2 result1
A
bar -0.579846 -1.739537
foo -0.280588 -1.402938
ただし、これは Series groupby オブジェクトでのみ機能します。同様に、dict が groupby DataFrame に渡される場合、キーは関数が適用される列名であることが想定されます。
私がやりたいのは、複数の列に複数の関数を適用することです (ただし、特定の列は複数回操作されます)。また、一部の関数は、groupby オブジェクト内の他の列に依存します(sumif 関数など)。現在の解決策は、列ごとに実行し、他の行に依存する関数にラムダを使用して、上記のコードのようなことを実行することです。ただし、これには時間がかかります (groupby オブジェクトを反復処理するには時間がかかると思います)。1 回の実行で groupby オブジェクト全体を反復処理するように変更する必要がありますが、これをある程度きれいに実行するための組み込みの方法が pandas にあるかどうか疑問に思っています。
例えば、私は次のようなことを試しました
grouped.agg({'C_sum' : lambda x: x['C'].sum(),
'C_std': lambda x: x['C'].std(),
'D_sum' : lambda x: x['D'].sum()},
'D_sumifC3': lambda x: x['D'][x['C'] == 3].sum(), ...)
しかし、予想どおり KeyError が発生します ( agg
DataFrame から呼び出される場合、キーは列である必要があるため)。
私がやりたいことを実行する組み込みの方法はありますか、またはこの機能が追加される可能性はありますか、それとも groupby を手動で反復処理する必要があるだけですか?
ベストアンサー1
後半は現在受け入れられている回答は時代遅れで、2 つの非推奨事項があります。まず、最も重要なのは、辞書の辞書を groupby メソッドに渡すことができなくなったことですagg
。次に、 を決して使用しないでください.ix
。
2つの別々の列を同時に操作したい場合は、apply
暗黙的にデータフレームを適用された関数に渡す方法を使用することをお勧めします。上記と同様のデータフレームを使用しましょう。
df = pd.DataFrame(np.random.rand(4,4), columns=list('abcd'))
df['group'] = [0, 0, 1, 1]
df
a b c d group
0 0.418500 0.030955 0.874869 0.145641 0
1 0.446069 0.901153 0.095052 0.487040 0
2 0.843026 0.936169 0.926090 0.041722 1
3 0.635846 0.439175 0.828787 0.714123 1
列名から集計関数にマップされた辞書は、集計を実行するための最適な方法です。
df.groupby('group').agg({'a':['sum', 'max'],
'b':'mean',
'c':'sum',
'd': lambda x: x.max() - x.min()})
a b c d
sum max mean sum <lambda>
group
0 0.864569 0.446069 0.466054 0.969921 0.341399
1 1.478872 0.843026 0.687672 1.754877 0.672401
見苦しいラムダ列名が気に入らない場合は、通常の関数を使用して、__name__
次のように特別な属性にカスタム名を指定できます。
def max_min(x):
return x.max() - x.min()
max_min.__name__ = 'Max minus Min'
df.groupby('group').agg({'a':['sum', 'max'],
'b':'mean',
'c':'sum',
'd': max_min})
a b c d
sum max mean sum Max minus Min
group
0 0.864569 0.446069 0.466054 0.969921 0.341399
1 1.478872 0.843026 0.687672 1.754877 0.672401
apply
シリーズの使用と返却
ここで、相互に作用する必要がある複数の列がある場合、 は使用できません。agg
これは、暗黙的に Series を集計関数に渡します。apply
グループ全体を DataFrame として使用すると、関数に渡されます。
すべての集計のシリーズを返す単一のカスタム関数を作成することをお勧めします。新しい列のラベルとしてシリーズ インデックスを使用します。
def f(x):
d = {}
d['a_sum'] = x['a'].sum()
d['a_max'] = x['a'].max()
d['b_mean'] = x['b'].mean()
d['c_d_prodsum'] = (x['c'] * x['d']).sum()
return pd.Series(d, index=['a_sum', 'a_max', 'b_mean', 'c_d_prodsum'])
df.groupby('group').apply(f)
a_sum a_max b_mean c_d_prodsum
group
0 0.864569 0.446069 0.466054 0.173711
1 1.478872 0.843026 0.687672 0.630494
MultiIndexe がお好きな場合は、次のようにして Series を返すこともできます。
def f_mi(x):
d = []
d.append(x['a'].sum())
d.append(x['a'].max())
d.append(x['b'].mean())
d.append((x['c'] * x['d']).sum())
return pd.Series(d, index=[['a', 'a', 'b', 'c_d'],
['sum', 'max', 'mean', 'prodsum']])
df.groupby('group').apply(f_mi)
a b c_d
sum max mean prodsum
group
0 0.864569 0.446069 0.466054 0.173711
1 1.478872 0.843026 0.687672 0.630494