複数の関数を複数のグループ化列に適用する質問する

Question

後半は現在受け入れられている回答は時代遅れで、2 つの非推奨事項があります。まず、最も重要なのは、辞書の辞書を groupby メソッドに渡すことができなくなったことですagg。次に、を決して使用しないでください.ix。

2つの別々の列を同時に操作したい場合は、apply暗黙的にデータフレームを適用された関数に渡す方法を使用することをお勧めします。上記と同様のデータフレームを使用しましょう。

df = pd.DataFrame(np.random.rand(4,4), columns=list('abcd'))
df['group'] = [0, 0, 1, 1]
df

          a         b         c         d  group
0  0.418500  0.030955  0.874869  0.145641      0
1  0.446069  0.901153  0.095052  0.487040      0
2  0.843026  0.936169  0.926090  0.041722      1
3  0.635846  0.439175  0.828787  0.714123      1

列名から集計関数にマップされた辞書は、集計を実行するための最適な方法です。

df.groupby('group').agg({'a':['sum', 'max'], 
                         'b':'mean', 
                         'c':'sum', 
                         'd': lambda x: x.max() - x.min()})

              a                   b         c         d
            sum       max      mean       sum  <lambda>
group                                                  
0      0.864569  0.446069  0.466054  0.969921  0.341399
1      1.478872  0.843026  0.687672  1.754877  0.672401

見苦しいラムダ列名が気に入らない場合は、通常の関数を使用して、__name__次のように特別な属性にカスタム名を指定できます。

def max_min(x):
    return x.max() - x.min()

max_min.__name__ = 'Max minus Min'

df.groupby('group').agg({'a':['sum', 'max'], 
                         'b':'mean', 
                         'c':'sum', 
                         'd': max_min})

              a                   b         c             d
            sum       max      mean       sum Max minus Min
group                                                      
0      0.864569  0.446069  0.466054  0.969921      0.341399
1      1.478872  0.843026  0.687672  1.754877      0.672401

`apply`シリーズの使用と返却

ここで、相互に作用する必要がある複数の列がある場合、は使用できません。aggこれは、暗黙的に Series を集計関数に渡します。applyグループ全体を DataFrame として使用すると、関数に渡されます。

すべての集計のシリーズを返す単一のカスタム関数を作成することをお勧めします。新しい列のラベルとしてシリーズインデックスを使用します。

def f(x):
    d = {}
    d['a_sum'] = x['a'].sum()
    d['a_max'] = x['a'].max()
    d['b_mean'] = x['b'].mean()
    d['c_d_prodsum'] = (x['c'] * x['d']).sum()
    return pd.Series(d, index=['a_sum', 'a_max', 'b_mean', 'c_d_prodsum'])

df.groupby('group').apply(f)

         a_sum     a_max    b_mean  c_d_prodsum
group                                           
0      0.864569  0.446069  0.466054     0.173711
1      1.478872  0.843026  0.687672     0.630494

MultiIndexe がお好きな場合は、次のようにして Series を返すこともできます。

    def f_mi(x):
        d = []
        d.append(x['a'].sum())
        d.append(x['a'].max())
        d.append(x['b'].mean())
        d.append((x['c'] * x['d']).sum())
        return pd.Series(d, index=[['a', 'a', 'b', 'c_d'], 
                                   ['sum', 'max', 'mean', 'prodsum']])

df.groupby('group').apply(f_mi)

              a                   b       c_d
            sum       max      mean   prodsum
group                                        
0      0.864569  0.446069  0.466054  0.173711
1      1.478872  0.843026  0.687672  0.630494

Answer 1

後半は現在受け入れられている回答は時代遅れで、2 つの非推奨事項があります。まず、最も重要なのは、辞書の辞書を groupby メソッドに渡すことができなくなったことですagg。次に、を決して使用しないでください.ix。

2つの別々の列を同時に操作したい場合は、apply暗黙的にデータフレームを適用された関数に渡す方法を使用することをお勧めします。上記と同様のデータフレームを使用しましょう。

df = pd.DataFrame(np.random.rand(4,4), columns=list('abcd'))
df['group'] = [0, 0, 1, 1]
df

          a         b         c         d  group
0  0.418500  0.030955  0.874869  0.145641      0
1  0.446069  0.901153  0.095052  0.487040      0
2  0.843026  0.936169  0.926090  0.041722      1
3  0.635846  0.439175  0.828787  0.714123      1

列名から集計関数にマップされた辞書は、集計を実行するための最適な方法です。

df.groupby('group').agg({'a':['sum', 'max'], 
                         'b':'mean', 
                         'c':'sum', 
                         'd': lambda x: x.max() - x.min()})

              a                   b         c         d
            sum       max      mean       sum  <lambda>
group                                                  
0      0.864569  0.446069  0.466054  0.969921  0.341399
1      1.478872  0.843026  0.687672  1.754877  0.672401

見苦しいラムダ列名が気に入らない場合は、通常の関数を使用して、__name__次のように特別な属性にカスタム名を指定できます。

def max_min(x):
    return x.max() - x.min()

max_min.__name__ = 'Max minus Min'

df.groupby('group').agg({'a':['sum', 'max'], 
                         'b':'mean', 
                         'c':'sum', 
                         'd': max_min})

              a                   b         c             d
            sum       max      mean       sum Max minus Min
group                                                      
0      0.864569  0.446069  0.466054  0.969921      0.341399
1      1.478872  0.843026  0.687672  1.754877      0.672401

`apply`シリーズの使用と返却

ここで、相互に作用する必要がある複数の列がある場合、は使用できません。aggこれは、暗黙的に Series を集計関数に渡します。applyグループ全体を DataFrame として使用すると、関数に渡されます。

すべての集計のシリーズを返す単一のカスタム関数を作成することをお勧めします。新しい列のラベルとしてシリーズインデックスを使用します。

def f(x):
    d = {}
    d['a_sum'] = x['a'].sum()
    d['a_max'] = x['a'].max()
    d['b_mean'] = x['b'].mean()
    d['c_d_prodsum'] = (x['c'] * x['d']).sum()
    return pd.Series(d, index=['a_sum', 'a_max', 'b_mean', 'c_d_prodsum'])

df.groupby('group').apply(f)

         a_sum     a_max    b_mean  c_d_prodsum
group                                           
0      0.864569  0.446069  0.466054     0.173711
1      1.478872  0.843026  0.687672     0.630494

MultiIndexe がお好きな場合は、次のようにして Series を返すこともできます。

    def f_mi(x):
        d = []
        d.append(x['a'].sum())
        d.append(x['a'].max())
        d.append(x['b'].mean())
        d.append((x['c'] * x['d']).sum())
        return pd.Series(d, index=[['a', 'a', 'b', 'c_d'], 
                                   ['sum', 'max', 'mean', 'prodsum']])

df.groupby('group').apply(f_mi)

              a                   b       c_d
            sum       max      mean   prodsum
group                                        
0      0.864569  0.446069  0.466054  0.173711
1      1.478872  0.843026  0.687672  0.630494

複数の関数を複数のグループ化列に適用する質問する

ベストアンサー1

`apply`シリーズの使用と返却

おすすめ記事

ベストアンサー1

applyシリーズの使用と返却

おすすめ記事

`apply`シリーズの使用と返却