ソース コードを UTF-8 形式で保存することはどの程度重要ですか?
Windows 上の Eclipse は、デフォルトで CP1252 文字エンコードを使用します。CP1251 形式は、UTF-8 以外の文字を保存できることを意味し、コメント用に Word 文書からコピーして貼り付けると、これが発生することがあります。
私が質問する理由は、習慣的に Maven エンコーディングを UTF-8 形式に設定し、最近、マッピングできないエラーがいくつか発生したためです。
(更新) そうする理由と理由を追加してください。知っておくべき一般的な落とし穴はありますか?
(更新) 目標は何ですか? ベストプラクティスを見つけて、なぜ UTF-8 を使用する必要があるのかと尋ねられたときに適切な答えを用意することです。現時点では、そうではありません。
ベストアンサー1
あなたの目標は何ですか? この選択の長所と短所とあなたのニーズのバランスをとってください。
UTF-8 の利点
\uHHHH
エスケープなしですべての文字リテラルを使用できる
UTF-8の短所
- 非ASCII文字リテラルを使用すると
\uHHHH
文字化けのリスクが増大する- フォントやキーボードの問題が発生する可能性がある
- すべてのツール(エディタ、コンパイラ、ビルドスクリプト、diffツール)でUTF-8の使用を文書化し、強制する必要がある
- バイトオーダーマークに注意してください
ASCII の長所
- 文字/バイトマッピングは幅広いエンコーディングで共有されている
- ソースファイルの移植性が非常に高くなる
- 多くの場合、エンコードメタデータを指定する必要がなくなります(UTF-8、Windows-1252、ISO 8859-1、およびUTF-16やEBCDIC以外のほとんどのものに再エンコードすると、ファイルは同一になるため)。
ASCII の欠点
- 限定された文字セット
- これは1960年代ではない
注: ASCII は 7 ビットであり、「拡張」ではありません。Windows-1252、ISO 8859-1、その他のものと混同しないでください。