公開識別子の開始位置と終了位置の抽出

公開識別子の開始位置と終了位置の抽出

次のファイルがあります。

Id       Chr     Start   End  
Prom_1   chr1    3978952 3978953  
Prom_1   chr1    3979165 3979166  
Prom_1   chr1    3979192 3979193  
Prom_2   chr1    4379047 4379048  
Prom_2   chr1    4379091 4379092  
Prom_2   chr1    4379345 4379346  
Prom_2   chr1    4379621 4379622  
Prom_3   chr1    5184469 5184470  
Prom_3   chr1    5184495 5184496  

私が抽出したいのは、次のように開始と終了が同じですId

Id       Chr     Start   End  
Prom_1   chr1    3978952 3979193  
Prom_2   chr1    4379047 4379622  
Prom_3   chr1    5184469 5184496

ご存知のように、繰り返し回数はId開始と終了の間に一定ではありません。どんなアイデアでも大いに感謝します。

ベストアンサー1

GNUと共にデータ混合:

datamash -H -W -g 1,2 min 3 max 4 <input

おすすめ記事