遅すぎるgzip -dコマンドの代替

Question

パイプに置き換えることができるディスクI / Oがたくさんあります。func_create_dat_file50個の圧縮ファイルのリストを取得し、各ファイルを読み取り、圧縮されていないデータを書き込みます。次に、圧縮されていない50個のデータファイルをそれぞれ読み取り、ファイル名の前に書き換えます。これらの作業はすべて順次実行されるため、複数のCPUを完全に活用することはできません。

私はあなたがそれを試すことをお勧めします

func_create_dat_file()
{
    cd raw_directory
    while IFS="" read -r f
    do
        zcat -- "$f" | sed "s/^/${f%.gz}|/"
    done < "${raw_file_list}" >> "${data_file}"
}

ここでは、圧縮データをディスクから一度読み込みます。圧縮されていないデータはパイプに一度書き込まれ、パイプから読み取られた後、ディスクに一度書き込まれます。データ変換は読み出しと並行して行われるため、2CPUを使用できます。

[編集] このセクションの説明を求めるコメントですsed "s/^/${f%.gz}|/"。以下は、各行の先頭にファイル名を新しいフィールドとして追加するコードです。$fファイル名です。文字列の末尾から削除します${f%.gz}。この場合、.gz特別なものはありません|。${f%.gz}|ファイル名も同様です。末尾を削除します.gz。|Insed s/old/new/は置換コマンドであるため、そのregular expression部分oldを表す必要があります。^正規表現が行の先頭に一致するため、一緒に使用すると、OPの説明ではなくOPのプログラムと一致するように追加され.gzました|。|実際にCSV（カンマ区切り変数）ファイルの場合は、パイプではなくコンマでなければなりません。

Answer 1

パイプに置き換えることができるディスクI / Oがたくさんあります。func_create_dat_file50個の圧縮ファイルのリストを取得し、各ファイルを読み取り、圧縮されていないデータを書き込みます。次に、圧縮されていない50個のデータファイルをそれぞれ読み取り、ファイル名の前に書き換えます。これらの作業はすべて順次実行されるため、複数のCPUを完全に活用することはできません。

私はあなたがそれを試すことをお勧めします

func_create_dat_file()
{
    cd raw_directory
    while IFS="" read -r f
    do
        zcat -- "$f" | sed "s/^/${f%.gz}|/"
    done < "${raw_file_list}" >> "${data_file}"
}

ここでは、圧縮データをディスクから一度読み込みます。圧縮されていないデータはパイプに一度書き込まれ、パイプから読み取られた後、ディスクに一度書き込まれます。データ変換は読み出しと並行して行われるため、2CPUを使用できます。

[編集] このセクションの説明を求めるコメントですsed "s/^/${f%.gz}|/"。以下は、各行の先頭にファイル名を新しいフィールドとして追加するコードです。$fファイル名です。文字列の末尾から削除します${f%.gz}。この場合、.gz特別なものはありません|。${f%.gz}|ファイル名も同様です。末尾を削除します.gz。|Insed s/old/new/は置換コマンドであるため、そのregular expression部分oldを表す必要があります。^正規表現が行の先頭に一致するため、一緒に使用すると、OPの説明ではなくOPのプログラムと一致するように追加され.gzました|。|実際にCSV（カンマ区切り変数）ファイルの場合は、パイプではなくコンマでなければなりません。

遅すぎるgzip -dコマンドの代替

ベストアンサー1

おすすめ記事