COPY はどのように機能し、なぜ INSERT よりもはるかに高速なのでしょうか? 質問する

Question

ここではいくつかの要因が働いています:

ネットワーク遅延と往復遅延
PostgreSQL のステートメントごとのオーバーヘッド
コンテキストスイッチとスケジューラの遅延
COMMIT挿入ごとに1つのコミットを実行する場合のコスト（あなたはそうではありません）
COPY一括読み込みに特化した最適化

ネットワーク遅延

サーバーがリモートの場合、ステートメントごとに固定時間「料金」、たとえば50ms（1/20秒）を支払うことになるかもしれません。クラウドホストのDBの場合はもっと高額になることもあります。最後の挿入が正常に完了するまで次の挿入を開始できないため、最大挿入速度は、1 秒あたり 1000/往復遅延 (ミリ秒) 行です。遅延が 50 ミリ秒 (「ping 時間」) の場合、1 秒あたり 20 行になります。ローカルサーバーでも、この遅延はゼロではありません。一方、COPYTCP 送受信ウィンドウを埋め、DB が書き込み、ネットワークが転送できる速度で行をストリームします。遅延の影響はそれほど受けず、同じネットワークリンクで 1 秒あたり数千行を挿入している可能性があります。

PostgreSQL のステートメントごとのコスト

PostgreSQL では、ステートメントの解析、計画、実行にもコストがかかります。ロックをかけたり、リレーションファイルを開いたり、インデックスを検索したりする必要があります。COPYこれらすべてを最初に 1 回実行し、その後は行をできるだけ早くロードすることに集中します。

タスク/コンテキスト切り替えコスト

オペレーティングシステムは、アプリケーションが行を準備して送信する間に postgres が行を待機し、その後、postgres が行を処理する間にアプリケーションが postgres の応答を待機する間を切り替える必要があるため、さらに時間コストがかかります。一方から他方に切り替えるたびに、少し時間が無駄になります。プロセスが待機状態に入ったり出たりすると、さまざまな低レベルのカーネル状態が一時停止および再開されるため、さらに時間が無駄になる可能性があります。

COPY最適化を見逃す

それに加えて、にはCOPY、いくつかの種類のロードに使用できる最適化機能があります。たとえば、生成されたキーがなく、デフォルト値が定数である場合、それらを事前に計算してエグゼキュータを完全にバイパスし、PostgreSQL の通常の作業の一部を完全にスキップする低レベルでデータをテーブルに高速にロードできます。またはCREATE TABLE同じTRUNCATEトランザクションでを使用する場合COPY、マルチクライアントデータベースで必要な通常のトランザクション記録をバイパスすることで、ロードを高速化するためのさらに多くのトリックを実行できます。

それにもかかわらず、PostgreSQL は、COPYまだやり方がわかっていないものの、処理速度を上げるためにさらに多くのことを行うことができます。テーブルの一定の割合以上を変更する場合は、インデックスの更新を自動的にスキップして、インデックスを再構築することができます。インデックスの更新をバッチで実行することもできます。他にもたくさんあります。

コミットコスト

最後に考慮すべきことは、コミットコストです。psycopg2デフォルトではトランザクションが開かれ、指示があるまでコミットされないため、おそらく問題にはなりません。自動コミットを使用するように指示しない限りは。しかし、多くの DB ドライバでは自動コミットがデフォルトです。そのような場合、1 回ごとにコミットを実行することになりますINSERT。つまり、1 回のディスクフラッシュで、サーバーはメモリ内のすべてのデータをディスクに書き出し、ディスクに独自のキャッシュを永続ストレージに書き出すように指示します。これには、長さ時間はかかり、ハードウェアによって大きく異なります。私の SSD ベースの NVMe BTRFS ラップトップは、1 秒あたり 200 回の fsync しか実行できませんが、1 秒あたり 300,000 回の非同期書き込みを実行できます。したがって、1 秒あたり 200 行しかロードされません。サーバーによっては、1 秒あたり 50 回の fsync しか実行できないものもあれば、20,000 回の fsync を実行できるものもあります。したがって、定期的にコミットする必要がある場合は、バッチでロードしてコミットし、複数行の挿入などを実行するようにしてください。COPY最後に 1 つのコミットしか実行されないため、コミットコストはごくわずかです。ただし、これはCOPYデータの途中でエラーが発生した場合に回復できないことも意味します。一括ロード全体が元に戻ってしまいます。

Answer 1

ここではいくつかの要因が働いています:

ネットワーク遅延と往復遅延
PostgreSQL のステートメントごとのオーバーヘッド
コンテキストスイッチとスケジューラの遅延
COMMIT挿入ごとに1つのコミットを実行する場合のコスト（あなたはそうではありません）
COPY一括読み込みに特化した最適化

ネットワーク遅延

サーバーがリモートの場合、ステートメントごとに固定時間「料金」、たとえば50ms（1/20秒）を支払うことになるかもしれません。クラウドホストのDBの場合はもっと高額になることもあります。最後の挿入が正常に完了するまで次の挿入を開始できないため、最大挿入速度は、1 秒あたり 1000/往復遅延 (ミリ秒) 行です。遅延が 50 ミリ秒 (「ping 時間」) の場合、1 秒あたり 20 行になります。ローカルサーバーでも、この遅延はゼロではありません。一方、COPYTCP 送受信ウィンドウを埋め、DB が書き込み、ネットワークが転送できる速度で行をストリームします。遅延の影響はそれほど受けず、同じネットワークリンクで 1 秒あたり数千行を挿入している可能性があります。

PostgreSQL のステートメントごとのコスト

PostgreSQL では、ステートメントの解析、計画、実行にもコストがかかります。ロックをかけたり、リレーションファイルを開いたり、インデックスを検索したりする必要があります。COPYこれらすべてを最初に 1 回実行し、その後は行をできるだけ早くロードすることに集中します。

タスク/コンテキスト切り替えコスト

オペレーティングシステムは、アプリケーションが行を準備して送信する間に postgres が行を待機し、その後、postgres が行を処理する間にアプリケーションが postgres の応答を待機する間を切り替える必要があるため、さらに時間コストがかかります。一方から他方に切り替えるたびに、少し時間が無駄になります。プロセスが待機状態に入ったり出たりすると、さまざまな低レベルのカーネル状態が一時停止および再開されるため、さらに時間が無駄になる可能性があります。

COPY最適化を見逃す

それに加えて、にはCOPY、いくつかの種類のロードに使用できる最適化機能があります。たとえば、生成されたキーがなく、デフォルト値が定数である場合、それらを事前に計算してエグゼキュータを完全にバイパスし、PostgreSQL の通常の作業の一部を完全にスキップする低レベルでデータをテーブルに高速にロードできます。またはCREATE TABLE同じTRUNCATEトランザクションでを使用する場合COPY、マルチクライアントデータベースで必要な通常のトランザクション記録をバイパスすることで、ロードを高速化するためのさらに多くのトリックを実行できます。

それにもかかわらず、PostgreSQL は、COPYまだやり方がわかっていないものの、処理速度を上げるためにさらに多くのことを行うことができます。テーブルの一定の割合以上を変更する場合は、インデックスの更新を自動的にスキップして、インデックスを再構築することができます。インデックスの更新をバッチで実行することもできます。他にもたくさんあります。

コミットコスト

最後に考慮すべきことは、コミットコストです。psycopg2デフォルトではトランザクションが開かれ、指示があるまでコミットされないため、おそらく問題にはなりません。自動コミットを使用するように指示しない限りは。しかし、多くの DB ドライバでは自動コミットがデフォルトです。そのような場合、1 回ごとにコミットを実行することになりますINSERT。つまり、1 回のディスクフラッシュで、サーバーはメモリ内のすべてのデータをディスクに書き出し、ディスクに独自のキャッシュを永続ストレージに書き出すように指示します。これには、長さ時間はかかり、ハードウェアによって大きく異なります。私の SSD ベースの NVMe BTRFS ラップトップは、1 秒あたり 200 回の fsync しか実行できませんが、1 秒あたり 300,000 回の非同期書き込みを実行できます。したがって、1 秒あたり 200 行しかロードされません。サーバーによっては、1 秒あたり 50 回の fsync しか実行できないものもあれば、20,000 回の fsync を実行できるものもあります。したがって、定期的にコミットする必要がある場合は、バッチでロードしてコミットし、複数行の挿入などを実行するようにしてください。COPY最後に 1 つのコミットしか実行されないため、コミットコストはごくわずかです。ただし、これはCOPYデータの途中でエラーが発生した場合に回復できないことも意味します。一括ロード全体が元に戻ってしまいます。

COPY はどのように機能し、なぜ INSERT よりもはるかに高速なのでしょうか? 質問する

ベストアンサー1

ネットワーク遅延

PostgreSQL のステートメントごとのコスト

タスク/コンテキスト切り替えコスト

COPY最適化を見逃す

コミットコスト

おすすめ記事