HTMLファイルの奇妙なHTML文字の間に新しい行を挿入するのに問題があります - UTF-8 [閉じる]

HTMLファイルの奇妙なHTML文字の間に新しい行を挿入するのに問題があります - UTF-8 [閉じる]

次のコマンドを使用して、テキストファイルの文字間に新しい行を挿入して単一の文字列を生成します。

sed 's/./&\n/g' file.txt

これは、次のASCII内の文字に適用されます。

123

到着する:

1

2

3

Õöþùüê¡£¢¥Ÿ£€Ÿ£¡œãòá碜áòáHTMLでダウンロードしたWebページに表示されるマルチバイト文字(たとえば)では何もできません。

どんな提案がありますか?

これは私が投稿した別の質問に対して開発中のソリューションの一部です。最終的にこの文字を英語に変換するスクリプトを生成しようとしています。ただし、各文字を1行に入力する必要があります。

ベストアンサー1

どんな提案がありますか?

まず、これは私にとってうまくいきます。

echo "Õöþùüê¡£¢" | sed 's/./&\n/g'
Õ
ö
þ
ù
ü
ê
¡
£
¢

これを考えるとlocale

locale
LANG=sv_SE.UTF-8
LANGUAGE=
LC_CTYPE="sv_SE.UTF-8"
LC_NUMERIC="sv_SE.UTF-8"
LC_TIME="sv_SE.UTF-8"
LC_COLLATE="sv_SE.UTF-8"
LC_MONETARY="sv_SE.UTF-8"
LC_MESSAGES="sv_SE.UTF-8"
LC_PAPER="sv_SE.UTF-8"
LC_NAME="sv_SE.UTF-8"
LC_ADDRESS="sv_SE.UTF-8"
LC_TELEPHONE="sv_SE.UTF-8"
LC_MEASUREMENT="sv_SE.UTF-8"
LC_IDENTIFICATION="sv_SE.UTF-8"
LC_ALL=

私の考えでは、あなたはそうだlocaleと思います。いいえUTF-8。localeUTF-8に設定してもう一度やり直してください。

おすすめ記事