Python Unicode文字列からアクセントを削除（正規化）する最良の方法は何ですか？質問する

2024-07-05 • tag-icon

python python-3.x unicode python-2.x diacritics

Python に Unicode 文字列があり、すべてのアクセント (分音記号) を削除したいと考えています。

私はウェブ上でこれを（Java で）行うエレガントな方法を見つけました:

pyICU などのライブラリをインストールする必要がありますか、それとも Python 標準ライブラリだけで可能ですか? Python 3 の場合はどうですか?

重要な注意: アクセント付き文字からアクセントなし文字への明示的なマッピングを含むコードは避けてください。

ユニコードは、これに対する正解です。これは、任意の Unicode 文字列を、可能な限り近い ASCII テキスト表現に変換します。

例：

>>> from unidecode import unidecode
>>> unidecode('kožušček')
'kozuscek'
>>> unidecode('北亰')
'Bei Jing '
>>> unidecode('François')
'Francois'

おすすめ記事