Linux（およびUnix？）のC ++で最も一般的な文字列エンコーディング

Question

あなたの質問はかなり広いので、これは部分的な答えです。

C ++では、「実行文字セット」を定義します（実際には2つの狭い文字セットと2つの広い文字セットがあります）。

ソースファイルに以下が含まれている場合：

char s[] = "Hello";

次に、実行されたエンコードに基づいて文字列リテラル内の文字の数値バイト値を見つけます。（ホロ広いワイド文字定数に割り当てられた数値には、適用エンコーディングが適用されますL'a'。 )

これはすべて、コンパイルプロセスでソースコードファイルを最初に読み込むプロセスの一部として発生します。内部に入ると、C++ 文字は追加の意味のないバイトにすぎません。（タイプ名はcharC派生言語で最悪の誤った名前の1つであることに違いありません！）

C++11 にはリテラルu8""とu""OK の部分的な例外があります。U""結果文字列要素の値（つまり、結果の値はグローバルに明示的でプラットフォームに依存しません）ですが、これは影響しません。ソースコードを入力してください説明します。

良いコンパイラは次のことを許可する必要があります。指定するソースコードはエンコードされているので、友達がEBCDICシステムからプログラムテキストを送信しても問題はありません。 GCCには次のオプションがあります。

-finput-charset：入力文字セット、つまりソースコードファイルがエンコードされる方法
-fexec-charset: 実行文字セット、つまり文字列リテラルがエンコードされる方法
-fwide-exec-charset: 広い実行文字セット、つまり広い文字列リテラルをエンコードする方法

変換にはGCCが使用されるため、サポートされているiconv()すべてのエンコーディングをiconv()これらのオプションと組み合わせて使用できます。

私以前に書いたC ++標準は、テキストエンコーディングを処理するためのいくつかの不透明なツールを提供しています。

例：char s[] = "Hello";ソースファイルがASCII（例：コードを入力ASCIIです）。その後、コンパイラはそれを読み、99解釈するcなどの作業を行います。文字通りの意味で見ればと72読んで解釈するH。これで、実行されたエンコード（ASCIIまたはUTF-8の場合）Hによって決定されたバイト値が配列に保存されます。72を書くと、\xFFコンパイラはそれを読み99 120 70 70、デコードし、配列\xFFに書き込みます。255

Answer 1