ファイルに与えられた文字だけを保持する方法は？

Question

「á」は341です。

いいえ、そうではありません。文字セットは UTF-8 です。ここで á は U+00E1 文字で、2 バイトのシーケンス\xc3\xa1= でエンコードされます\303\241。\341パラメータを書き込むとtrバイトとして解釈されます\341。

拡張ASCIIテーブル文字については不明です。

はい、そうです。「拡張ASCIIテーブル文字」のようなものはありません。 ASCIIは7ビット文字セットです。拡張ASCII文字セットを参照しており、tr実際にサポートされています。tr現在のロケールに従って文字またはバイトを処理します。

tr -cd '\12\40-\176'ASCIIでは、印刷可能文字と改行文字を保存するという意味です。すべてのロケールで「印刷可能な文字」を話すことができます[:print:]。\n改行を表すより明確な方法です。したがって：

tr -cd '\n[:print:]'

残念ながら、一部の実装tr（GNUバージョンを含む）ではUTF-8の文字セットを処理できません。代わりに sed を使用できます。

sed 's/[^[:print:]]//g'

Answer 1