ファイルから最初のn文字を抽出するgrepメソッド

Question

文字列が重複したいので、デフォルトでこれを提供できるツールはありません。重複するすべてのイベントを見つけるには、入力を繰り返す必要があります。次の問題は正規表現の貪欲な特性です。 aが見つかるATCGTAとATCGTAGCTA先頭が見つかりません。これはループをより複雑にします。

sed -E ':1
 h;s/(.*TA).*/\1/
 s/.{0,20}TA$/_&/
 s/.*_//p
 g;s/(.*)TA.*/\1/;t1
 d

私が考えることができる最初の解決策です。この例の出力には、必要なすべてのシーケンスを含める必要があります。

GATGCTGCTATGCTAGATGCTA
TCGTATCGATGCTGCTATGCTA
TAGCATCGTATCGATGCTGCTA
ATCGTAGCTAGCATCGTA
ATCGTAGCTA
ATCGTA

説明：最後のゲームから始めるのは簡単です。

h次のサイクルのためにバッファをアーカイブスペースに保存する
s/(.*TA).*/\1/最後のもの以降のすべてを削除します。TA
s/.{0,20}TA$/_&/取得するシーケンスの先頭に下線をマーカーとして配置します。
s/.*_//pマーカーの前のすべての項目を削除し、シーケンスを印刷します。
次のサイクルを準備するには、保存gしたパターンを復元し、s/(.*)TA.*/\1/最後のTAパターンとそれ以降のパターンを削除してもう一度見つからないようにします。
最後に、シーケンスが見つかったらt1始めます。:1
d最後の偽の出力を抑制します。

Answer 1

文字列が重複したいので、デフォルトでこれを提供できるツールはありません。重複するすべてのイベントを見つけるには、入力を繰り返す必要があります。次の問題は正規表現の貪欲な特性です。 aが見つかるATCGTAとATCGTAGCTA先頭が見つかりません。これはループをより複雑にします。

sed -E ':1
 h;s/(.*TA).*/\1/
 s/.{0,20}TA$/_&/
 s/.*_//p
 g;s/(.*)TA.*/\1/;t1
 d

私が考えることができる最初の解決策です。この例の出力には、必要なすべてのシーケンスを含める必要があります。

GATGCTGCTATGCTAGATGCTA
TCGTATCGATGCTGCTATGCTA
TAGCATCGTATCGATGCTGCTA
ATCGTAGCTAGCATCGTA
ATCGTAGCTA
ATCGTA

説明：最後のゲームから始めるのは簡単です。

h次のサイクルのためにバッファをアーカイブスペースに保存する
s/(.*TA).*/\1/最後のもの以降のすべてを削除します。TA
s/.{0,20}TA$/_&/取得するシーケンスの先頭に下線をマーカーとして配置します。
s/.*_//pマーカーの前のすべての項目を削除し、シーケンスを印刷します。
次のサイクルを準備するには、保存gしたパターンを復元し、s/(.*)TA.*/\1/最後のTAパターンとそれ以降のパターンを削除してもう一度見つからないようにします。
最後に、シーケンスが見つかったらt1始めます。:1
d最後の偽の出力を抑制します。

おすすめ記事