無効なutf8フィルタリング

2024-06-20 • tag-icon

command-line text-processing character-encoding unicode

不明または混合エンコードを含むテキストファイルがあります。（テキストファイルをプログラムにパイプして）間違ったUTF-8バイトシーケンスを含む行を見たいです。同様に、有効なUTF-8行をフィルタリングしたいと思います。つまり、私はそれを探しています。grep [notutf8]

理想的なソリューションは、移植可能で短く、他のコーディングに一般化可能ですが、最良のアプローチはベーキングです。UTF-8の定義、続行してください。

を使用するには、grep次の手順を実行します。

grep -axv '.*' file

UTF-8ロケールから無効なUTF-8シーケンスを含む行を取得します（少なくともGNU Grepに適用されます）。

おすすめ記事