vttファイルからテキストをインポートする

Question

あなたのファイルは、1つ以上の空白行で区切られた一連のレコードで構成されているため、以下に基づいて試してみることをお勧めします。短絡モードawkまたは一つperl。

たとえば、次のように常に最初の2行を削除する必要がある場合

1
00:00:00.096 --> 00:00:05.047

次のいずれかの方法を使用して、スペースで区切られた段落を改行区切りフィールドに分割し、最初の2つのフィールドをスキップできます。

awk -vRS= -vORS= -F'\n' '{for(j=3;j<=NF;j++) print $j; print " "}' file.vtt

または

perl -F'\n' -00ne 'print join("", @F[2..$#F]), " "' file.vtt

削除するフィールド（行）の固定数に依存できない場合は、正規表現テストを追加するのは非常に簡単です。これにより、明示的なループを作成するのではなく、配列で直接作業できるため、perl少し簡単です。grepたとえば、スペースで区切られたレコードに分割し、3つ以上のアルファベット文字シーケンスを含むフィールド（行）のみを印刷するには、次のようにします。

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " "
' file.vtt

その文字列を除外するには、WEBVTT最初のレコードをスキップするだけです。

perl -F'\n' -00ane '
  print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  ' file.vtt

適切な正規表現を選択して必要な行をキャプチャし、不要な行を除外できます。リンクされた出力に最後の改行を追加するには、またはにENDブロックを追加しますawk。perl

注：（コメントの議論によると）ファイルにDOSスタイルの行末CRLFがあるように見えるので、それを処理する必要があります。上記のコマンドでフィールドとレコードの区切り文字を適切に変更するか、最初のCRエントリを削除します。

sed 's/\r$//' file.vtt | 
  perl -F'\n' -00ane '
    print join("", grep { /[[:alpha:]]{3}/ } @F), " " if $. > 1
  '
you're the four functions if you would of management first of all you have the planning the planning stages basically you were choosing appropriate  organizational goals and courses action to best achieve those goals steeldriver@xenial-vm:~/test/$

Answer 1