すべての個々のグループ項目間のペアを構成する値のリストに基づいてグループを割り当てます。

Question

これはファイルを入力して一度だけ行うことができます。

awk -F'\t' '{ 
  # "groups" is an associative array containing the group numbers
  # for the values in fields $1 and $2.
  if (! ($1 in groups)) {
     # "gc" stands for "group counter"
     groups[$1] = ++gc;
  }

  groups[$2] = groups[$1]

  printf "%s\t%s\tgroup%02i\n", $1, $2, groups[$1];
}' pairs.tsv
a       b       group01
c       d       group02
e       f       group03
e       g       group03
h       i       group04
h       j       group04
k       l       group05
f       g       group03
m       n       group06
i       j       group04

%groups私はまた、awkバージョンのようにハッシュ（連想配列）を使用するPerlバージョンを作成しました。そして@pairs各グループのペアを維持するには、配列の配列配列（AoA - つまり、各要素が別の配列の配列）を呼び出します。結果を読み取ったとおりに印刷するのではなく、読み取った後にすべての入力を印刷します。

#!/usr/bin/perl

use strict;

my $gc = 1; # group counter
my %groups; # hash containing group numbers for each element
my @pairs;  # array of arrays containing pairs

while(<>) {
  chomp;
  my ($a,$b) = split /\t/;

  $groups{$a} = $gc++ unless (defined($groups{$a}));

  $groups{$b} = $groups{$a};
  push @{ $pairs[$groups{$a}] }, [ $a, $b ];
};

END {
  for my $g (keys @pairs) {
    for my $p (@{ $pairs[$g] }) {
      printf "%s\t%s\tgroup%02i\n", @$p[0], @$p[1], $g;
    }
  };
}

@pairs 配列を繰り返すので、出力はグループ番号に基づいてソートされます。

$ ./group.pl pairs.tsv 
a       b       group01
c       d       group02
e       f       group03
e       g       group03
f       g       group03
h       i       group04
h       j       group04
i       j       group04
k       l       group05
m       n       group06

ソートを除いて、両方のバージョンの出力は同じです。

Answer 1

これはファイルを入力して一度だけ行うことができます。

awk -F'\t' '{ 
  # "groups" is an associative array containing the group numbers
  # for the values in fields $1 and $2.
  if (! ($1 in groups)) {
     # "gc" stands for "group counter"
     groups[$1] = ++gc;
  }

  groups[$2] = groups[$1]

  printf "%s\t%s\tgroup%02i\n", $1, $2, groups[$1];
}' pairs.tsv
a       b       group01
c       d       group02
e       f       group03
e       g       group03
h       i       group04
h       j       group04
k       l       group05
f       g       group03
m       n       group06
i       j       group04

%groups私はまた、awkバージョンのようにハッシュ（連想配列）を使用するPerlバージョンを作成しました。そして@pairs各グループのペアを維持するには、配列の配列配列（AoA - つまり、各要素が別の配列の配列）を呼び出します。結果を読み取ったとおりに印刷するのではなく、読み取った後にすべての入力を印刷します。

#!/usr/bin/perl

use strict;

my $gc = 1; # group counter
my %groups; # hash containing group numbers for each element
my @pairs;  # array of arrays containing pairs

while(<>) {
  chomp;
  my ($a,$b) = split /\t/;

  $groups{$a} = $gc++ unless (defined($groups{$a}));

  $groups{$b} = $groups{$a};
  push @{ $pairs[$groups{$a}] }, [ $a, $b ];
};

END {
  for my $g (keys @pairs) {
    for my $p (@{ $pairs[$g] }) {
      printf "%s\t%s\tgroup%02i\n", @$p[0], @$p[1], $g;
    }
  };
}

@pairs 配列を繰り返すので、出力はグループ番号に基づいてソートされます。

$ ./group.pl pairs.tsv 
a       b       group01
c       d       group02
e       f       group03
e       g       group03
f       g       group03
h       i       group04
h       j       group04
i       j       group04
k       l       group05
m       n       group06

ソートを除いて、両方のバージョンの出力は同じです。

すべての個々のグループ項目間のペアを構成する値のリストに基づいてグループを割り当てます。

ベストアンサー1

おすすめ記事