不明または混合エンコードを含むテキストファイルがあります。 (テキストファイルをプログラムにパイプして)間違ったUTF-8バイトシーケンスを含む行を見たいです。同様に、有効なUTF-8行をフィルタリングしたいと思います。つまり、私はそれを探しています。grep [notutf8]
理想的なソリューションは、移植可能で短く、他のコーディングに一般化可能ですが、最良のアプローチはベーキングです。UTF-8の定義、続行してください。
ベストアンサー1
を使用するには、grep
次の手順を実行します。
grep -axv '.*' file
UTF-8ロケールから無効なUTF-8シーケンスを含む行を取得します(少なくともGNU Grepに適用されます)。