別のファイルの列をクロスチェックし、欠落している値を印刷する方法は？

Question

システムがサポートしている場合プロセスの交換、フラグ（一致しない行を表示）、フラグ（ファイルからパターンを読み取る）grepと組み合わせて使用できます。ここで、「file」はファイルの最初のフィールドのみを印刷するコマンドです。たとえば、-v-f

$ grep -vf <(awk '{print $1}' file2) file1
variant_id  gene_id tss_distance    ma_samples  ma_count    maf pval_nominal    slope   slope_se    pval_nominal_threshold  min_pval_nominal    pval_beta
"chr1_666028_G_A_b38"   ENSG00000227232.5   636475  111 115 0.0950413   2.78462e-08 0.411513    0.0729864   0.0006160191.01823e-08  1.17701e-0

これがオプションでない場合は、最初のフィールドをファイルとして印刷し、次のものを使用できます。

$ awk '{print $1}' file2 > file2.names
$ grep -vf file2.names file1
variant_id  gene_id tss_distance    ma_samples  ma_count    maf pval_nominal    slope   slope_se    pval_nominal_threshold  min_pval_nominal    pval_beta
"chr1_666028_G_A_b38"   ENSG00000227232.5   636475  111 115 0.0950413   2.78462e-08 0.411513    0.0729864   0.0006160191.01823e-08  1.17701e-0

あるいは、すべてのバリアントIDをfile2に格納するのに十分なRAMがあると仮定すると（非常に古いハードウェアを使用しない限り、これを行う必要があります）、それを使用してファイルのawk最初のフィールドをすべて別のファイルに保存できます。

$ awk 'NR == FNR{a[$1]++;next}; !($1 in a)' file2 file1
variant_id  gene_id tss_distance    ma_samples  ma_count    maf pval_nominal    slope   slope_se    pval_nominal_threshold  min_pval_nominal    pval_beta
"chr1_666028_G_A_b38"   ENSG00000227232.5   636475  111 115 0.0950413   2.78462e-08 0.411513    0.0729864   0.0006160191.01823e-08  1.17701e-0

Answer 1

システムがサポートしている場合プロセスの交換、フラグ（一致しない行を表示）、フラグ（ファイルからパターンを読み取る）grepと組み合わせて使用できます。ここで、「file」はファイルの最初のフィールドのみを印刷するコマンドです。たとえば、-v-f

$ grep -vf <(awk '{print $1}' file2) file1
variant_id  gene_id tss_distance    ma_samples  ma_count    maf pval_nominal    slope   slope_se    pval_nominal_threshold  min_pval_nominal    pval_beta
"chr1_666028_G_A_b38"   ENSG00000227232.5   636475  111 115 0.0950413   2.78462e-08 0.411513    0.0729864   0.0006160191.01823e-08  1.17701e-0

これがオプションでない場合は、最初のフィールドをファイルとして印刷し、次のものを使用できます。

$ awk '{print $1}' file2 > file2.names
$ grep -vf file2.names file1
variant_id  gene_id tss_distance    ma_samples  ma_count    maf pval_nominal    slope   slope_se    pval_nominal_threshold  min_pval_nominal    pval_beta
"chr1_666028_G_A_b38"   ENSG00000227232.5   636475  111 115 0.0950413   2.78462e-08 0.411513    0.0729864   0.0006160191.01823e-08  1.17701e-0

あるいは、すべてのバリアントIDをfile2に格納するのに十分なRAMがあると仮定すると（非常に古いハードウェアを使用しない限り、これを行う必要があります）、それを使用してファイルのawk最初のフィールドをすべて別のファイルに保存できます。

$ awk 'NR == FNR{a[$1]++;next}; !($1 in a)' file2 file1
variant_id  gene_id tss_distance    ma_samples  ma_count    maf pval_nominal    slope   slope_se    pval_nominal_threshold  min_pval_nominal    pval_beta
"chr1_666028_G_A_b38"   ENSG00000227232.5   636475  111 115 0.0950413   2.78462e-08 0.411513    0.0729864   0.0006160191.01823e-08  1.17701e-0

別のファイルの列をクロスチェックし、欠落している値を印刷する方法は？

ベストアンサー1

おすすめ記事