複数ファイルのデータを単一のCSVファイルに効率的に抽出

Question

これにより、トリックを実行できます。

awk -F '[<>]' '
      NR!=1 && FNR==1{printf "\n"} 
      FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      END{printf "\n"}
    ' $path_to_xml/*.xml > final_table.csv

説明する：

awk：このプログラムを使用してawkGNU awk 4.0.1でテストしました。
-F '[<>]'<: と>フィールド区切り文字として使用
NR!=1 && FNR==1{printf "\n"}：全体の最初の行（）ではなく、NR!=1ファイルの最初の行（FNR==1）の場合は改行文字を出力します。
FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME}：ファイルの最初の行の場合は、/ファイル名（）から最後（）の前をすべて削除し、後の（）を削除して結果を印刷（）します。sub(".*/", "", FILENAME)FILENAME.xmlsub(".xml$", "", FILENAME)printf FILENAME
/double/{printf " %s", $3}行に「double」（/double/）が含まれている場合は、スペースが印刷され、その後に3番目のフィールド（printf " %s", $3）が表示されます。数字になる区切り文字としてと<を使用します（最初のフィールドは最初のフィールドの前にあるもので、2番目のフィールドはです）。必要に応じて、ここで数値書式を指定できます。たとえば、任意の数字の代わりに使用すると、小数点以下の3桁が出力され、全長（スコアと小数点以下の桁数を含む）は少なくとも8桁になります。><double%8.3f%s
END{printf "\n"}: 最後の行の後に追加の改行を印刷します (オプションである可能性があります)。
$path_to_xml/*.xml: ファイルリスト
> final_table.csvfinal_table.csv：結果を入れてください。

「引数リストが長くなる」エラーが発生した場合は、直接渡すのではなく、findwith引数を使用してファイルリストを生成できます。-exec

find $path_to_xml -maxdepth 1 -type f -name '*.xml' -exec awk -F '[<>]' '
      NR!=1 && FNR==1{printf "\n"} 
      FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      END{printf "\n"}
    ' {} + > final_table.csv

説明する：

find $path_to_xml：findファイルを一覧表示するように指示します。$path_to_xml
-maxdepth 1: サブフォルダーを入力しないでください$path_to_xml
-type f：一般ファイルのみを一覧表示します。（これも$path_to_xml自分を除きます。）
-name '*.xml': only list files that match the pattern*.xml`、引用する必要があります。それ以外の場合、シェルは拡張モードを試みます。
-exec COMMAND {} +：COMMAND代わりに一致するファイルをパラメータとして使用します{}。+複数のファイルを一度に転送できるため、フォークが少なくなります。各ファイルに対して個別にコマンドを実行する代わりに使用される場合\;（;引用符が必要、それ以外の場合はシェルで解釈されます）。+

xargs以下と組み合わせて使用することもできますfind。

find $path_to_xml -maxdepth 1 -type f -name '*.xml' -print0 |
 xargs -0 awk -F '[<>]' '
      NR!=1 && FNR==1{printf "\n"} 
      FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      END{printf "\n"}
    ' > final_table.csv

説明する

-print0：ヌル文字で区切られたファイルのリストを出力します。
|（パイプ）：標準出力をfind標準入力にリダイレクトします。xargs
xargs：標準入力からコマンドをビルドして実行します。つまり、渡された各引数（この場合はファイル名）に対してコマンドを実行します。
-0:xargs引数がヌル文字で区切られていると仮定します。

awk -F '[<>]' '      
      BEGINFILE {sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      ENDFILE {printf "\n"}
    ' $path_to_xml/*.xml > final_table.csv

whichBEGINFILEはENDFILEファイルが変更されたときに呼び出されます（awkがサポートしている場合）。

Answer 1

これにより、トリックを実行できます。

awk -F '[<>]' '
      NR!=1 && FNR==1{printf "\n"} 
      FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      END{printf "\n"}
    ' $path_to_xml/*.xml > final_table.csv

説明する：

awk：このプログラムを使用してawkGNU awk 4.0.1でテストしました。
-F '[<>]'<: と>フィールド区切り文字として使用
NR!=1 && FNR==1{printf "\n"}：全体の最初の行（）ではなく、NR!=1ファイルの最初の行（FNR==1）の場合は改行文字を出力します。
FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME}：ファイルの最初の行の場合は、/ファイル名（）から最後（）の前をすべて削除し、後の（）を削除して結果を印刷（）します。sub(".*/", "", FILENAME)FILENAME.xmlsub(".xml$", "", FILENAME)printf FILENAME
/double/{printf " %s", $3}行に「double」（/double/）が含まれている場合は、スペースが印刷され、その後に3番目のフィールド（printf " %s", $3）が表示されます。数字になる区切り文字としてと<を使用します（最初のフィールドは最初のフィールドの前にあるもので、2番目のフィールドはです）。必要に応じて、ここで数値書式を指定できます。たとえば、任意の数字の代わりに使用すると、小数点以下の3桁が出力され、全長（スコアと小数点以下の桁数を含む）は少なくとも8桁になります。><double%8.3f%s
END{printf "\n"}: 最後の行の後に追加の改行を印刷します (オプションである可能性があります)。
$path_to_xml/*.xml: ファイルリスト
> final_table.csvfinal_table.csv：結果を入れてください。

「引数リストが長くなる」エラーが発生した場合は、直接渡すのではなく、findwith引数を使用してファイルリストを生成できます。-exec

find $path_to_xml -maxdepth 1 -type f -name '*.xml' -exec awk -F '[<>]' '
      NR!=1 && FNR==1{printf "\n"} 
      FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      END{printf "\n"}
    ' {} + > final_table.csv

説明する：

find $path_to_xml：findファイルを一覧表示するように指示します。$path_to_xml
-maxdepth 1: サブフォルダーを入力しないでください$path_to_xml
-type f：一般ファイルのみを一覧表示します。（これも$path_to_xml自分を除きます。）
-name '*.xml': only list files that match the pattern*.xml`、引用する必要があります。それ以外の場合、シェルは拡張モードを試みます。
-exec COMMAND {} +：COMMAND代わりに一致するファイルをパラメータとして使用します{}。+複数のファイルを一度に転送できるため、フォークが少なくなります。各ファイルに対して個別にコマンドを実行する代わりに使用される場合\;（;引用符が必要、それ以外の場合はシェルで解釈されます）。+

xargs以下と組み合わせて使用することもできますfind。

find $path_to_xml -maxdepth 1 -type f -name '*.xml' -print0 |
 xargs -0 awk -F '[<>]' '
      NR!=1 && FNR==1{printf "\n"} 
      FNR==1{sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      END{printf "\n"}
    ' > final_table.csv

説明する

-print0：ヌル文字で区切られたファイルのリストを出力します。
|（パイプ）：標準出力をfind標準入力にリダイレクトします。xargs
xargs：標準入力からコマンドをビルドして実行します。つまり、渡された各引数（この場合はファイル名）に対してコマンドを実行します。
-0:xargs引数がヌル文字で区切られていると仮定します。

awk -F '[<>]' '      
      BEGINFILE {sub(".*/", "", FILENAME); sub(".xml$", "", FILENAME); printf FILENAME} 
      /double/{printf " %s", $3}
      ENDFILE {printf "\n"}
    ' $path_to_xml/*.xml > final_table.csv

whichBEGINFILEはENDFILEファイルが変更されたときに呼び出されます（awkがサポートしている場合）。

複数ファイルのデータを単一のCSVファイルに効率的に抽出

修正する

ベストアンサー1

説明する：

説明する：

説明する

おすすめ記事