AWKなしのマルチパス方式

Question

AWKなしのマルチパス方式

まず、ファイルを読み取り、行と列のラベルを抽出します。その後、ゼロと最初の行の各列ラベルが印刷されます。

このループはラベルなしの行処理を担当します。まず、行ラベルを印刷してから、ファイル内の対応する（行、列）ペアに一致するすべての項目を検索します。dc複数の行が返されると、この結果の3番目の列にある項目が追加されます。

このアプローチの明らかな問題は、ファイルを読むことです。アイテムごとに1回結果マトリックスから。したがって、行ラベルと列ラベルを取得した最初の2回を計算すると、例は22回読み取られます。

呼び出し方法は次のとおりです./contingency-table input-file。

#!/bin/sh
# file: contingency-table

columns=$(cut -d' ' -f 1 "$1" | sort | uniq)
rows=$(cut -d' ' -f 2 "$1" | sort | uniq)

printf '0'
printf ' %s' ${columns}
printf '\n'

for row in ${rows}; do
  printf "${row} "
  for col in ${columns}; do
    (grep "${col} ${row}" "${1}" \
     | cut -d' ' -f 3            \
     | tr '\n' '+'
     printf '\n')                \
    | sed -e 's/^/0 /'           \
          -e 's/$/pq/'           \
    | dc                         \
    | tr '\n' ' '
  done
  printf '\n'
done

AWKを使用するより効率的な方法

#!/usr/bin/awk -f

function max(val1, val2) {
    return ((val1 > val2) ? val1 : val2)
}

BEGIN {
    name_length = 0
    department_length = 0
    # This line influences sorting in GNU awk
    PROCINFO["sorted_in"] = "@ind_str_asc"
}

(!($1 in names)) {
    names[$1]
    name_length = max(length($1), name_length)
}

(!($2 in departments)) {
    departments[$2]
    department_length = max(length($2), department_length)
}

{
    hours[$2, $1] += $3
}

END {
    printf "%" department_length "s", 0
    for (name in names) {
        printf " %" name_length "s", name
    }
    printf "\n"
    for (department in departments) {
        printf "%" department_length "s", department
        for (name in names) {
            printf " %" name_length "d", hours[department, name]
        }
        printf "\n"
    }
}

開始ブロックは、いくつかの変数を設定し、配列巡回をソートするようにGNU awkを設定します。次の2つのブロックは、入力をスキャンしながら必要に応じて名前と部門を追加します。 3番目のブロックは各累計を計算します。

「人が読める」形式が必要ない場合は、この行…_length = max(…をコメントアウトしてください。

このENDブロックは、以前に作成された配列を繰り返し、すべての出力とフォーマットが行われる場所です。これにより、出力テーブルの各エントリに対して1つの転送ではなく、入力ファイルに対して1つの転送が許可されます。

Answer 1

AWKなしのマルチパス方式

まず、ファイルを読み取り、行と列のラベルを抽出します。その後、ゼロと最初の行の各列ラベルが印刷されます。

このループはラベルなしの行処理を担当します。まず、行ラベルを印刷してから、ファイル内の対応する（行、列）ペアに一致するすべての項目を検索します。dc複数の行が返されると、この結果の3番目の列にある項目が追加されます。

このアプローチの明らかな問題は、ファイルを読むことです。アイテムごとに1回結果マトリックスから。したがって、行ラベルと列ラベルを取得した最初の2回を計算すると、例は22回読み取られます。

呼び出し方法は次のとおりです./contingency-table input-file。

#!/bin/sh
# file: contingency-table

columns=$(cut -d' ' -f 1 "$1" | sort | uniq)
rows=$(cut -d' ' -f 2 "$1" | sort | uniq)

printf '0'
printf ' %s' ${columns}
printf '\n'

for row in ${rows}; do
  printf "${row} "
  for col in ${columns}; do
    (grep "${col} ${row}" "${1}" \
     | cut -d' ' -f 3            \
     | tr '\n' '+'
     printf '\n')                \
    | sed -e 's/^/0 /'           \
          -e 's/$/pq/'           \
    | dc                         \
    | tr '\n' ' '
  done
  printf '\n'
done

AWKを使用するより効率的な方法

#!/usr/bin/awk -f

function max(val1, val2) {
    return ((val1 > val2) ? val1 : val2)
}

BEGIN {
    name_length = 0
    department_length = 0
    # This line influences sorting in GNU awk
    PROCINFO["sorted_in"] = "@ind_str_asc"
}

(!($1 in names)) {
    names[$1]
    name_length = max(length($1), name_length)
}

(!($2 in departments)) {
    departments[$2]
    department_length = max(length($2), department_length)
}

{
    hours[$2, $1] += $3
}

END {
    printf "%" department_length "s", 0
    for (name in names) {
        printf " %" name_length "s", name
    }
    printf "\n"
    for (department in departments) {
        printf "%" department_length "s", department
        for (name in names) {
            printf " %" name_length "d", hours[department, name]
        }
        printf "\n"
    }
}

開始ブロックは、いくつかの変数を設定し、配列巡回をソートするようにGNU awkを設定します。次の2つのブロックは、入力をスキャンしながら必要に応じて名前と部門を追加します。 3番目のブロックは各累計を計算します。

「人が読める」形式が必要ない場合は、この行…_length = max(…をコメントアウトしてください。

このENDブロックは、以前に作成された配列を繰り返し、すべての出力とフォーマットが行われる場所です。これにより、出力テーブルの各エントリに対して1つの転送ではなく、入力ファイルに対して1つの転送が許可されます。

AWKなしのマルチパス方式

ベストアンサー1

AWKなしのマルチパス方式

AWKを使用するより効率的な方法

おすすめ記事