Unix文字セット変換

Question

問題＃1：「Flyers：Video Center」を検索しています...結果はありません。:

ファイルの16進ダンプで、単語の間に2バイトのC2A0があることを確認してください。せん断：そして動画。 UTF8エンコーディングです。中断されないスペース。grep NBSPは失敗することが知られています。もっと情報が欲しいなら読んでくださいsedを使用して特殊な「M-BM-」文字を削除する方法そしてsedを使用して置き換える... Hex c2a0。短い答えは次のとおりです。

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

質問＃2「アメリカ」は「アメリカ」（？？）として表示されます。:

ここでダンプにはe28099という3バイトが含まれています。右一重引用符(').実際、ここには何の問題もないはずです！上記の質問によって注意が気になることがあります。（確認できますか？）

grep、およびロケールを尊重する式（UTF8！）を含む他のツールを使用すると、sed次のように動作します。

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

UTF-8をすべて削除したい場合」特別な「文字を使用するには上記のヒントを使用できます。iconv（しかし、UTF8をサポートしない理由はほとんどありません。）

ASCII以外の文字をすべて削除します。

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

または、1 つのロケールの文字を保存します。

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8

Answer 1