無効なutf8フィルタリング

無効なutf8フィルタリング

不明または混合エンコードを含むテキストファイルがあります。 (テキストファイルをプログラムにパイプして)間違ったUTF-8バイトシーケンスを含む行を見たいです。同様に、有効なUTF-8行をフィルタリングしたいと思います。つまり、私はそれを探しています。grep [notutf8]

理想的なソリューションは、移植可能で短く、他のコーディングに一般化可能ですが、最良のアプローチはベーキングです。UTF-8の定義、続行してください。

ベストアンサー1

を使用するには、grep次の手順を実行します。

grep -axv '.*' file

UTF-8ロケールから無効なUTF-8シーケンスを含む行を取得します(少なくともGNU Grepに適用されます)。

おすすめ記事