ファイルに関するいくつかの基本的な統計を実行するようにbashスクリプトを改善します。

Question

次のawkスクリプトはこれを行います。awk長さのためにこれを明示的なプログラムファイルとして書いています。これは主に分析結果を印刷する機能によるものです。

`awk`GNUブロックがある場合`ENDFILE`：

プログラムファイル（私たちはこれと呼びますanalyze_genome_g.awk）：

#!/usr/bin/gawk -f

# Begin of file, characterized by FNR, the per-file line-counter, being 1.
# Initialize statistics: set sum, min, and max to first chromosome length
# and name of longest/shortest ('long'/'short') to first chromosome name.
FNR==1{s=min=max=$2; short=long=$1}

# All other lines: Update sum, min, and max lengths
FNR>1{s=s+$2;if (min>$2) {min=$2; short=$1}; if (max<$2) {max=$2; long=$1}}

# End-of-file (GNU awk feature!): Print statistics
ENDFILE{
    printf("%s\n",FILENAME);
    printf("- Genome length         : %d\n",s);
    printf("- Nr. of chromosomes    : %d\n",FNR);
    printf("- Mean chomosome length : %.1f\n",s/FNR);
    printf("- Shortest chromosome   : %s (length=%d)\n",short,min);
    printf("- Longest chromosome    : %s (length=%d)\n",long,max);
    printf("\n");
}

あなたはそれを呼び出すことができます

gawk -f analyze_genome_g.awk file_1 file_2 ...

出力：

file_1
- Genome length         : 100286070
- Nr. of chromosomes    : 7
- Mean chomosome length : 14326581.4
- Shortest chromosome   : chrM (length=13794)
- Longest chromosome    : chrV (length=20924149)

file_2
- Genome length         : 12157105
- Nr. of chromosomes    : 17
- Mean chomosome length : 715123.8
- Shortest chromosome   : chrM (length=85779)
- Longest chromosome    : chrIV (length=1531933)

その他の`awk`バリエーション：

状況がawkわからない場合は、いくつかの回避策が必要です。デフォルトでは、ファイル属性を一時変数に保存し、新しいファイルの先頭（以前のファイルの場合）または最後のファイルのブロックに統計を印刷します。処理済み。ENDFILEEND

printstats()これをより便利にするために出力を実行する関数を定義します。

プログラムファイル( analyze_genome.awk):

#!/usr/bin/awk -f
function printstats()
{
    printf("%s\n",last_fn);
    printf("- Genome length         : %d\n",s);
    printf("- Nr. of chromosomes    : %d\n",last_fnr);
    printf("- Mean chomosome length : %.1f\n",s/last_fnr);
    printf("- Shortest chromosome   : %s (length=%d)\n",short,min);
    printf("- Longest chromosome    : %s (length=%d)\n",long,max);
    printf("\n");
}

# Begin of file
# FNR==1 always works, but now we have to save file properties, too.
# If it is _not_ the first file (NR, the global line counter, is larger than
# FNR, the per-file line-counter), print statistics (of the previous file).
FNR==1{
    if (NR>1) printstats();
    s=min=max=$2; short=long=$1;
    last_fn=FILENAME; last_fnr=1;
}


FNR>1{
    s=s+$2; if (min>$2) {min=$2; short=$1}; if (max<$2) {max=$2; long=$1};
    last_fnr++;
}

END{printstats()}

同様に歌えばいい

awk -f analyze_genome.awk file_1 file_2 ...

一般的な注意事項として、シェルループを使用してテキストファイルを処理する効率が非常に低いのでお勧めできません。;awkなどは、ほぼすべてのテキスト処理操作と多くの統計計算をより迅速に実行できます。

Answer 1

次のawkスクリプトはこれを行います。awk長さのためにこれを明示的なプログラムファイルとして書いています。これは主に分析結果を印刷する機能によるものです。

`awk`GNUブロックがある場合`ENDFILE`：

プログラムファイル（私たちはこれと呼びますanalyze_genome_g.awk）：

#!/usr/bin/gawk -f

# Begin of file, characterized by FNR, the per-file line-counter, being 1.
# Initialize statistics: set sum, min, and max to first chromosome length
# and name of longest/shortest ('long'/'short') to first chromosome name.
FNR==1{s=min=max=$2; short=long=$1}

# All other lines: Update sum, min, and max lengths
FNR>1{s=s+$2;if (min>$2) {min=$2; short=$1}; if (max<$2) {max=$2; long=$1}}

# End-of-file (GNU awk feature!): Print statistics
ENDFILE{
    printf("%s\n",FILENAME);
    printf("- Genome length         : %d\n",s);
    printf("- Nr. of chromosomes    : %d\n",FNR);
    printf("- Mean chomosome length : %.1f\n",s/FNR);
    printf("- Shortest chromosome   : %s (length=%d)\n",short,min);
    printf("- Longest chromosome    : %s (length=%d)\n",long,max);
    printf("\n");
}

あなたはそれを呼び出すことができます

gawk -f analyze_genome_g.awk file_1 file_2 ...

出力：

file_1
- Genome length         : 100286070
- Nr. of chromosomes    : 7
- Mean chomosome length : 14326581.4
- Shortest chromosome   : chrM (length=13794)
- Longest chromosome    : chrV (length=20924149)

file_2
- Genome length         : 12157105
- Nr. of chromosomes    : 17
- Mean chomosome length : 715123.8
- Shortest chromosome   : chrM (length=85779)
- Longest chromosome    : chrIV (length=1531933)

その他の`awk`バリエーション：

状況がawkわからない場合は、いくつかの回避策が必要です。デフォルトでは、ファイル属性を一時変数に保存し、新しいファイルの先頭（以前のファイルの場合）または最後のファイルのブロックに統計を印刷します。処理済み。ENDFILEEND

printstats()これをより便利にするために出力を実行する関数を定義します。

プログラムファイル( analyze_genome.awk):

#!/usr/bin/awk -f
function printstats()
{
    printf("%s\n",last_fn);
    printf("- Genome length         : %d\n",s);
    printf("- Nr. of chromosomes    : %d\n",last_fnr);
    printf("- Mean chomosome length : %.1f\n",s/last_fnr);
    printf("- Shortest chromosome   : %s (length=%d)\n",short,min);
    printf("- Longest chromosome    : %s (length=%d)\n",long,max);
    printf("\n");
}

# Begin of file
# FNR==1 always works, but now we have to save file properties, too.
# If it is _not_ the first file (NR, the global line counter, is larger than
# FNR, the per-file line-counter), print statistics (of the previous file).
FNR==1{
    if (NR>1) printstats();
    s=min=max=$2; short=long=$1;
    last_fn=FILENAME; last_fnr=1;
}


FNR>1{
    s=s+$2; if (min>$2) {min=$2; short=$1}; if (max<$2) {max=$2; long=$1};
    last_fnr++;
}

END{printstats()}

同様に歌えばいい

awk -f analyze_genome.awk file_1 file_2 ...

一般的な注意事項として、シェルループを使用してテキストファイルを処理する効率が非常に低いのでお勧めできません。;awkなどは、ほぼすべてのテキスト処理操作と多くの統計計算をより迅速に実行できます。

ファイルに関するいくつかの基本的な統計を実行するようにbashスクリプトを改善します。

ベストアンサー1

`awk`GNUブロックがある場合`ENDFILE`：

その他の`awk`バリエーション：

おすすめ記事

ベストアンサー1

awkGNUブロックがある場合ENDFILE：

その他のawkバリエーション：

おすすめ記事

`awk`GNUブロックがある場合`ENDFILE`：

その他の`awk`バリエーション：