既存の列から新しい列を作成するための Pandas の apply と np.vectorize のパフォーマンス質問する

Question

私はします始めるPandasとNumPy配列の威力は、高性能なベクトル化された数値配列の計算。1^ベクトル化された計算の全体的なポイントは、計算を高度に最適化された C コードに移動し、連続したメモリブロックを利用することで、Python レベルのループを回避することです^。2

Pythonレベルのループ

ここで、タイミングを見てみましょう。以下は全てpd.Series、、np.ndarrayまたは同じ値を含むオブジェクトを生成する Python レベルのループlist。データフレーム内のシリーズに割り当てる目的では、結果は比較可能です。

# Python 3.6.5, NumPy 1.14.3, Pandas 0.23.0

np.random.seed(0)
N = 10**5

%timeit list(map(divide, df['A'], df['B']))                                   # 43.9 ms
%timeit np.vectorize(divide)(df['A'], df['B'])                                # 48.1 ms
%timeit [divide(a, b) for a, b in zip(df['A'], df['B'])]                      # 49.4 ms
%timeit [divide(a, b) for a, b in df[['A', 'B']].itertuples(index=False)]     # 112 ms
%timeit df.apply(lambda row: divide(*row), axis=1, raw=True)                  # 760 ms
%timeit df.apply(lambda row: divide(row['A'], row['B']), axis=1)              # 4.83 s
%timeit [divide(row['A'], row['B']) for _, row in df[['A', 'B']].iterrows()]  # 11.6 s

いくつかのポイント:

ベースの方法(最初の 4 つ) は、ベースの方法 (最後の 3 つ)tupleよりも 1 倍効率的です。pd.Series
np.vectorize、リスト内包+zipメソッドmap、つまり上位3つは、すべてほぼ同じパフォーマンスを示しています。これは、tuple そしてからいくつかのパンダのオーバーヘッドをバイパスしますpd.DataFrame.itertuples。
raw=True使用する場合と使用しない場合とでは、速度が大幅に向上しますpd.DataFrame.apply。このオプションは、オブジェクトではなく NumPy 配列をカスタム関数に渡しますpd.Series。

`pd.DataFrame.apply`: 単なるループ

見るその通りPandas が渡すオブジェクトに応じて、関数を簡単に修正できます。

def foo(row):
    print(type(row))
    assert False  # because you only need to see this once
df.apply(lambda row: foo(row), axis=1)

出力: <class 'pandas.core.series.Series'>。Pandas シリーズオブジェクトの作成、受け渡し、クエリには、NumPy 配列に比べて大きなオーバーヘッドがかかります。これは驚くべきことではありません。Pandas シリーズには、インデックス、値、属性などを保持するための適切な量のスキャフォールディングが含まれています。

同じ演習をもう一度行うとraw=True、がわかります<class 'numpy.ndarray'>。このすべてはドキュメントに記載されていますが、実際に見るほうが説得力があります。

`np.vectorize`: 偽のベクトル化

ドキュメントnp.vectorize次のようなメモがあります。

ベクトル化された関数はpyfunc、NumPy のブロードキャストルールを使用することを除いて、Python の map 関数のように入力配列の連続するタプルを評価します。

入力配列は同じ次元を持つため、「ブロードキャストルール」はここでは無関係です。上のバージョンはほぼ同じパフォーマンスであるmapため、との類似点は参考になります。mapソースコード何が起こっているかを表示します。np.vectorize入力した関数をユニバーサル機能（"ufunc")経由np.frompyfuncキャッシュなどの最適化が行われており、パフォーマンスの向上につながる可能性があります。

つまり、np.vectorizePythonレベルのループが行うことはすべき実行しますが、pd.DataFrame.apply大きなオーバーヘッドが追加されます。numba（下記参照）。ただの便利さ。

真のベクトル化：すべき使用

なぜ上記の違いはどこにも言及されていないのでしょうか? 真にベクトル化された計算のパフォーマンスでは、それらは無関係になるからです。

%timeit np.where(df['B'] == 0, 0, df['A'] / df['B'])       # 1.17 ms
%timeit (df['A'] / df['B']).replace([np.inf, -np.inf], 0)  # 1.96 ms

はい、これは上記のループするソリューションの中で最も高速なものより約 40 倍高速です。どちらも許容範囲です。私の意見では、最初のソリューションが簡潔で読みやすく、効率的です。numbaパフォーマンスが重要で、これがボトルネックの一部である場合のみ、以下の他の方法を検討してください。

`numba.njit`: 効率性の向上

ループの場合は実行可能と見なされる場合、通常は、numba基盤となる NumPy 配列を介して最適化され、可能な限り C に移行します。

確かに、numbaパフォーマンスが向上し、マイクロ秒面倒な作業をせずに、これよりはるかに効率を上げることは難しいでしょう。

from numba import njit

@njit
def divide(a, b):
    res = np.empty(a.shape)
    for i in range(len(a)):
        if b[i] != 0:
            res[i] = a[i] / b[i]
        else:
            res[i] = 0
    return res

%timeit divide(df['A'].values, df['B'].values)  # 717 µs

を使用すると、@njit(parallel=True)より大きな配列に対してさらにブーストが得られる可能性があります。

¹数値型には、、、、、intなどfloatがdatetimeありますbool。category除外する objectdtype であり、連続したメモリブロックに保持できます。

² NumPy 操作が Python よりも効率的である理由は少なくとも 2 つあります。

Python ではすべてがオブジェクトです。C とは異なり、数値も含まれます。そのため、Python の型にはネイティブの C の型には存在しないオーバーヘッドがあります。
NumPy メソッドは通常 C ベースです。さらに、可能な場合は最適化されたアルゴリズムが使用されます。

Answer 1

私はします始めるPandasとNumPy配列の威力は、高性能なベクトル化された数値配列の計算。1^ベクトル化された計算の全体的なポイントは、計算を高度に最適化された C コードに移動し、連続したメモリブロックを利用することで、Python レベルのループを回避することです^。2

Pythonレベルのループ

ここで、タイミングを見てみましょう。以下は全てpd.Series、、np.ndarrayまたは同じ値を含むオブジェクトを生成する Python レベルのループlist。データフレーム内のシリーズに割り当てる目的では、結果は比較可能です。

# Python 3.6.5, NumPy 1.14.3, Pandas 0.23.0

np.random.seed(0)
N = 10**5

%timeit list(map(divide, df['A'], df['B']))                                   # 43.9 ms
%timeit np.vectorize(divide)(df['A'], df['B'])                                # 48.1 ms
%timeit [divide(a, b) for a, b in zip(df['A'], df['B'])]                      # 49.4 ms
%timeit [divide(a, b) for a, b in df[['A', 'B']].itertuples(index=False)]     # 112 ms
%timeit df.apply(lambda row: divide(*row), axis=1, raw=True)                  # 760 ms
%timeit df.apply(lambda row: divide(row['A'], row['B']), axis=1)              # 4.83 s
%timeit [divide(row['A'], row['B']) for _, row in df[['A', 'B']].iterrows()]  # 11.6 s

いくつかのポイント:

ベースの方法(最初の 4 つ) は、ベースの方法 (最後の 3 つ)tupleよりも 1 倍効率的です。pd.Series
np.vectorize、リスト内包+zipメソッドmap、つまり上位3つは、すべてほぼ同じパフォーマンスを示しています。これは、tuple そしてからいくつかのパンダのオーバーヘッドをバイパスしますpd.DataFrame.itertuples。
raw=True使用する場合と使用しない場合とでは、速度が大幅に向上しますpd.DataFrame.apply。このオプションは、オブジェクトではなく NumPy 配列をカスタム関数に渡しますpd.Series。

`pd.DataFrame.apply`: 単なるループ

見るその通りPandas が渡すオブジェクトに応じて、関数を簡単に修正できます。

def foo(row):
    print(type(row))
    assert False  # because you only need to see this once
df.apply(lambda row: foo(row), axis=1)

出力: <class 'pandas.core.series.Series'>。Pandas シリーズオブジェクトの作成、受け渡し、クエリには、NumPy 配列に比べて大きなオーバーヘッドがかかります。これは驚くべきことではありません。Pandas シリーズには、インデックス、値、属性などを保持するための適切な量のスキャフォールディングが含まれています。

同じ演習をもう一度行うとraw=True、がわかります<class 'numpy.ndarray'>。このすべてはドキュメントに記載されていますが、実際に見るほうが説得力があります。

`np.vectorize`: 偽のベクトル化

ドキュメントnp.vectorize次のようなメモがあります。

ベクトル化された関数はpyfunc、NumPy のブロードキャストルールを使用することを除いて、Python の map 関数のように入力配列の連続するタプルを評価します。

入力配列は同じ次元を持つため、「ブロードキャストルール」はここでは無関係です。上のバージョンはほぼ同じパフォーマンスであるmapため、との類似点は参考になります。mapソースコード何が起こっているかを表示します。np.vectorize入力した関数をユニバーサル機能（"ufunc")経由np.frompyfuncキャッシュなどの最適化が行われており、パフォーマンスの向上につながる可能性があります。

つまり、np.vectorizePythonレベルのループが行うことはすべき実行しますが、pd.DataFrame.apply大きなオーバーヘッドが追加されます。numba（下記参照）。ただの便利さ。

真のベクトル化：すべき使用

なぜ上記の違いはどこにも言及されていないのでしょうか? 真にベクトル化された計算のパフォーマンスでは、それらは無関係になるからです。

%timeit np.where(df['B'] == 0, 0, df['A'] / df['B'])       # 1.17 ms
%timeit (df['A'] / df['B']).replace([np.inf, -np.inf], 0)  # 1.96 ms

はい、これは上記のループするソリューションの中で最も高速なものより約 40 倍高速です。どちらも許容範囲です。私の意見では、最初のソリューションが簡潔で読みやすく、効率的です。numbaパフォーマンスが重要で、これがボトルネックの一部である場合のみ、以下の他の方法を検討してください。

`numba.njit`: 効率性の向上

ループの場合は実行可能と見なされる場合、通常は、numba基盤となる NumPy 配列を介して最適化され、可能な限り C に移行します。

確かに、numbaパフォーマンスが向上し、マイクロ秒面倒な作業をせずに、これよりはるかに効率を上げることは難しいでしょう。

from numba import njit

@njit
def divide(a, b):
    res = np.empty(a.shape)
    for i in range(len(a)):
        if b[i] != 0:
            res[i] = a[i] / b[i]
        else:
            res[i] = 0
    return res

%timeit divide(df['A'].values, df['B'].values)  # 717 µs

を使用すると、@njit(parallel=True)より大きな配列に対してさらにブーストが得られる可能性があります。

¹数値型には、、、、、intなどfloatがdatetimeありますbool。category除外する objectdtype であり、連続したメモリブロックに保持できます。

² NumPy 操作が Python よりも効率的である理由は少なくとも 2 つあります。

Python ではすべてがオブジェクトです。C とは異なり、数値も含まれます。そのため、Python の型にはネイティブの C の型には存在しないオーバーヘッドがあります。
NumPy メソッドは通常 C ベースです。さらに、可能な場合は最適化されたアルゴリズムが使用されます。

既存の列から新しい列を作成するための Pandas の apply と np.vectorize のパフォーマンス質問する

ベストアンサー1

Pythonレベルのループ

`pd.DataFrame.apply`: 単なるループ

`np.vectorize`: 偽のベクトル化

真のベクトル化：すべき使用

`numba.njit`: 効率性の向上

おすすめ記事

ベストアンサー1

Pythonレベルのループ

pd.DataFrame.apply: 単なるループ

np.vectorize: 偽のベクトル化

真のベクトル化：すべき使用

numba.njit: 効率性の向上

おすすめ記事

`pd.DataFrame.apply`: 単なるループ

`np.vectorize`: 偽のベクトル化

`numba.njit`: 効率性の向上