テキスト文書のUnicodeエンコーディングを確認する方法

Question

Emacs

C-x =( M-x what-cursor-position)たとえば、画面の下部に現在の文字に関するコードポイント情報を表示します。

Char: И (1048, #o2030, #x418, file ...) point=7 of 8 (75%) column=0

C-u C-x =コードポイント、バイト表現、Unicode文字のメタデータ、文字を表示するために使用されるフォントなどを含む追加情報を含むウィンドウを開きます。

             position: 7 of 8 (75%), column: 0
            character: И (displayed as И) (codepoint 1048, #o2030, #x418)
    preferred charset: unicode (Unicode (ISO10646))
code point in charset: 0x0418
               script: cyrillic
               syntax: w    which means: word
             category: .:Base, L:Left-to-right (strong), Y:2-byte Cyrillic, c:Chinese, h:Korean, j:Japanese, y:Cyrillic
             to input: type "C-x 8 RET HEX-CODEPOINT" or "C-x 8 RET NAME"
          buffer code: #xD0 #x98
            file code: #xD0 #x98 (encoded by coding system utf-8-unix)
              display: by this font (glyph code)
    xft:-DAMA-Ubuntu Mono-normal-normal-normal-*-17-*-*-*-m-0-iso10646-1 (#x2CB)
         Unicode data:
                 Name: CYRILLIC CAPITAL LETTER I
             Category: Letter, Uppercase
      Combining class: Lu
        Bidi category: Lu
             Old name: CYRILLIC CAPITAL LETTER II
            Lowercase: и

Character code properties: customize what to show
  name: CYRILLIC CAPITAL LETTER I
  old-name: CYRILLIC CAPITAL LETTER II
  general-category: Lu (Letter, Uppercase)
  decomposition: (1048) ('И')

[back]

コマンドライン

これunicodeユーティリティ（Debian / Ubuntu / ...などの一部のディストリビューションで利用可能）pip3 install unicode）は、1つ以上のUnicode文字に関する情報を表示します。エディタからコピーして貼り付けると、エディタはファイルとは異なる方法でクリップボードをエンコードできます。

$ unicode И
U+0418 CYRILLIC CAPITAL LETTER I
UTF-8: d0 98 UTF-16BE: 0418 Decimal: &#1048; Octal: \02030
И (и)
Lowercase: 0438
Category: Lu (Letter, Uppercase)
Bidi: L (Left-to-Right)

Answer 1

Emacs

C-x =( M-x what-cursor-position)たとえば、画面の下部に現在の文字に関するコードポイント情報を表示します。

Char: И (1048, #o2030, #x418, file ...) point=7 of 8 (75%) column=0

C-u C-x =コードポイント、バイト表現、Unicode文字のメタデータ、文字を表示するために使用されるフォントなどを含む追加情報を含むウィンドウを開きます。

             position: 7 of 8 (75%), column: 0
            character: И (displayed as И) (codepoint 1048, #o2030, #x418)
    preferred charset: unicode (Unicode (ISO10646))
code point in charset: 0x0418
               script: cyrillic
               syntax: w    which means: word
             category: .:Base, L:Left-to-right (strong), Y:2-byte Cyrillic, c:Chinese, h:Korean, j:Japanese, y:Cyrillic
             to input: type "C-x 8 RET HEX-CODEPOINT" or "C-x 8 RET NAME"
          buffer code: #xD0 #x98
            file code: #xD0 #x98 (encoded by coding system utf-8-unix)
              display: by this font (glyph code)
    xft:-DAMA-Ubuntu Mono-normal-normal-normal-*-17-*-*-*-m-0-iso10646-1 (#x2CB)
         Unicode data:
                 Name: CYRILLIC CAPITAL LETTER I
             Category: Letter, Uppercase
      Combining class: Lu
        Bidi category: Lu
             Old name: CYRILLIC CAPITAL LETTER II
            Lowercase: и

Character code properties: customize what to show
  name: CYRILLIC CAPITAL LETTER I
  old-name: CYRILLIC CAPITAL LETTER II
  general-category: Lu (Letter, Uppercase)
  decomposition: (1048) ('И')

[back]

コマンドライン

これunicodeユーティリティ（Debian / Ubuntu / ...などの一部のディストリビューションで利用可能）pip3 install unicode）は、1つ以上のUnicode文字に関する情報を表示します。エディタからコピーして貼り付けると、エディタはファイルとは異なる方法でクリップボードをエンコードできます。

$ unicode И
U+0418 CYRILLIC CAPITAL LETTER I
UTF-8: d0 98 UTF-16BE: 0418 Decimal: &#1048; Octal: \02030
И (и)
Lowercase: 0438
Category: Lu (Letter, Uppercase)
Bidi: L (Left-to-Right)

テキスト文書のUnicodeエンコーディングを確認する方法

私が試したこと

私は何を望んでいますか？

ケーススタディ：ロシア語のアクセントのコレクション

ノート

ベストアンサー1

Emacs

コマンドライン

おすすめ記事