最近の Perl ではデフォルトで UTF-8 を避けるのはなぜですか? 質問する

Question

�� ℞ :

PERL_UNICODE変数をに設定しますAS。これにより、すべての Perl スクリプトが@ARGVUTF-8 文字列としてデコードされ、stdin、stdout、stderr の 3 つすべてのエンコードが UTF-8 に設定されます。これらは両方ともグローバルな効果であり、字句的な効果ではありません。
ソースファイル (プログラム、モジュール、ライブラリ、ヒッキー) の先頭でdo、次のようにして、Perl バージョン 5.12 以上を実行していることを明示的に宣言します。
```
use v5.12;  # minimal for unicode string feature
use v5.14;  # optimal for unicode string feature
```

警告を有効にします。前の宣言では、警告ではなく、制約と機能のみが有効になっています。また、Unicode 警告を例外に昇格させることも提案しています。そのため、これらの行の 1 つだけではなく両方を使用してください。ただし、v5.14 では、警告utf8クラスは、すべて個別に有効にできる 3 つの他のサブ警告 ( nonchar、、surrogateおよび) で構成されることに注意してくださいnon_unicode。これらに対して、より詳細な制御を行う必要がある場合があります。

use warnings;
use warnings qw( FATAL utf8 );

このソースユニットが UTF-8 としてエンコードされていることを宣言します。かつてこのプラグマは他の機能も果たしていましたが、現在はこの 1 つの目的のみを果たします。

use utf8;

このレキシカルスコープ内でファイルハンドルを開くが、他の場所では開かないものは、特に指定しない限り、そのストリームが UTF-8 でエンコードされていると想定することを宣言します。こうすることで、他のモジュールや他のプログラムのコードには影響しません。

use open qw( :encoding(UTF-8) :std );

経由で名前付き文字を有効にします\N{CHARNAME}。

use charnames qw( :full :short );

ハンドルがある場合はDATA、明示的にエンコーディングを設定する必要があります。これを UTF-8 にしたい場合は、次のようにします。

binmode(DATA, ":encoding(UTF-8)");

もちろん、最終的に関心を持つことになる他の事項は尽きることはありませんが、これらの用語の意味は多少弱められたとしても、「すべてを UTF-8 で動作させる」という国家目標に近づくには十分でしょう。

Unicode に関連していませんが、もう 1 つのプラグマは次のとおりです。

      use autodie;

強くお勧めします。

��

�� ⸗�� ⸗��

最近の私の定型文は、次のようになります。

use 5.014;

use utf8;
use strict;
use autodie;
use warnings; 
use warnings    qw< FATAL  utf8     >;
use open        qw< :std  :utf8     >;
use charnames   qw< :full >;
use feature     qw< unicode_strings >;

use File::Basename      qw< basename >;
use Carp                qw< carp croak confess cluck >;
use Encode              qw< encode decode >;
use Unicode::Normalize  qw< NFD NFC >;

END { close STDOUT }

if (grep /\P{ASCII}/ => @ARGV) { 
   @ARGV = map { decode("UTF-8", $_) } @ARGV;
}

$0 = basename($0);  # shorter messages
$| = 1;

binmode(DATA, ":utf8");

# give a full stack dump on any untrapped exceptions
local $SIG{__DIE__} = sub {
    confess "Uncaught exception: @_" unless $^S;
};

# now promote run-time warnings into stack-dumped
#   exceptions *unless* we're in an try block, in
#   which case just cluck the stack dump instead
local $SIG{__WARN__} = sub {
    if ($^S) { cluck   "Trapped warning: @_" } 
    else     { confess "Deadly warning: @_"  }
};

while (<>)  {
    chomp;
    $_ = NFD($_);
    ...
} continue {
    say NFC($_);
}

__END__

��

「Perl は [何らかの方法で ] Unicode をデフォルトで有効にすべき」と言うだけでは、まれで孤立したケースで少しでも役立つ程度のことを言うことなど考えられません。Unicode は単なる文字の大きなレパートリー以上のものです。それは、それらの文字がすべてさまざまな方法で相互作用する方法でもあります。

（一部の）人々が望んでいると思われる単純な最小限の対策でさえ、何百万行ものコードを悲惨なほど壊すことは確実であり、そのコードは、すばらしい新しい「すばらしい新世界」の現代性に「アップグレード」する機会はまったくありません。

それは、人々が思っているよりもはるかに複雑です。私は過去数年間、このことについて非常に深く考えてきました。私が間違っていることを証明してもらいたいものです。しかし、私は間違っているとは思いません。Unicode は、あなたが押し付けたいモデルよりも根本的に複雑であり、決して覆い隠すことのできない複雑さがあります。それを試みれば、自分のコードか他の人のコードが壊れることになります。ある時点で、Unicode を分解して、それが何であるかを学ばなければなりません。それが何か違うものであるふりをすることはできません。

�� は、私がこれまで使用したどの言語よりも、Unicode を簡単にするために全力を尽くしています。これが良くないと思うなら、しばらく他の言語を試してください。その後、�� に戻ってください。より良い世界に戻るか、同じ知識を持ち帰って、私たちがあなたの新しい知識を利用して、�� をこれらの点でより優れたものにすることができます。

�� ⸗ ��

少なくとも、あなたが言うように、�� が「デフォルトで Unicode を有効にする」ために必要なものがいくつかあります。

すべての��ソースコードはデフォルトでUTF-8でなければなりません。use utf8またはを使用してそれを取得できますexport PERL5OPTS=-Mutf8。
DATA�� ハンドルはUTF-8 である必要があります。のように、パッケージごとにこれを行う必要がありますbinmode(DATA, ":encoding(UTF-8)")。
�� スクリプトへのプログラム引数は、デフォルトで UTF-8 であると理解される必要があります。export PERL_UNICODE=A、またはperl -CA、またはexport PERL5OPTS=-CA。
標準入力、出力、およびエラーストリームは、export PERL_UNICODE=Sすべて UTF-8 にデフォルト設定されます。または、一部だけ、、、のいずれかになります。これはのようにIなりOます。Eperl -CS
�� によって開かれたその他のハンドルは、特に宣言されていない限り UTF-8 と見なす必要があります。export PERL_UNICODE=Dまたは、これらのうちの特定のハンドルについては、iとが機能します。これですべてが解決します。oexport PERL5OPTS=-CD-CSAD
両方のベースと、開いたすべてのストリームをカバーしますexport PERL5OPTS=-Mopen=:utf8,:std。ユニクォート。
UTF-8 エンコードエラーを見逃さないようにしてください。を試してくださいexport PERL5OPTS=-Mwarnings=FATAL,utf8。また、入力ストリームがだけでなく、常ににbinmoded されていることを確認してください。:encoding(UTF-8):utf8
128～255 のコードポイントは、プロパティ化されていないバイナリ値だけでなく、対応する Unicode コードポイントとしてによって理解される必要があります。use feature "unicode_strings"またはexport PERL5OPTS=-Mfeature=unicode_strings。これにより、およびが作成されますuc("\xDF") eq "SS"。"\xE9" =~ /\w/単純なexport PERL5OPTS=-Mv5.12またはより優れたもそれを取得します。
名前付きUnicode文字はデフォルトでは有効になっていないので、追加するexport PERL5OPTS=-Mcharnames=:full,:short,latin,greekか、またはそれに相当するものを追加してください。ユニネームそしてtcgrep。
ほとんどの場合、以下の機能にアクセスする必要があります。標準Unicode::Normalizeモジュールさまざまなタイプの分解。export PERL5OPTS=-MUnicode::Normalize=NFD,NFKD,NFC,NFKDそして、常にNFD経由で受信するものとNFC経由で送信するものを実行します。私が知る限り、これらにはまだI/Oレイヤーはありませんが、NFC、不要、いいえ、そしてナフコ。
eq、、、、、 &c & ccを使用したでの文字列比較は常に間違っています。したがって、の代わりにが必要です。それをに追加してもよいでしょう。neバイナリ比較のキーをキャッシュできます。lccmpsort@a = sort @b@a = Unicode::Collate->new->sort(@b)export PERL5OPTS=-MUnicode::Collate
やのような組み込み関数はprintf、writeUnicodeデータに対して間違った動作をします。モジュールUnicode::GCString前者については、そしてそれとまたモジュールUnicode::LineBreak後者も同様です。uwcそしてユニフォーム。
\d+整数としてカウントしたい場合は、キャプチャを次のように実行する必要があります。関数Unicode::UCD::numなぜなら、��の組み込みatoi（3）は現時点では十分に賢くないからです。
�� ファイルシステムでは、ファイルシステムの問題が発生します。一部のファイルシステムは、暗黙的に NFC への変換を強制します。また、暗黙的に NFD への変換を強制するファイルシステムもあります。さらに、他のファイルシステムは別の処理を行います。中には、問題を完全に無視するものもあり、これはさらに大きな問題につながります。したがって、正常な状態を保つには、NFC/NFD 処理を独自に行う必要があります。
、、およびを含む、a-zまたはA-Zなどを含むすべての��コードは変更する必要があります。これは、コードが壊れていることを示す明らかな赤信号として目立つはずです。しかし、どのように変更する必要があるかは明確ではありません。適切なプロパティを取得し、それらのケースフォールドを理解することは、あなたが思っているよりも難しいです。私はm//s///tr///ユニキャラそしてユニプロップ毎日。
を使用するコードは、\p{Lu}を使用するコードとほぼ同じくらい間違っています。代わりにを使用し、その理由を理解する[A-Za-z]必要があります。はい、とは、およびとは異なります。\p{Upper}\p{Lowercase}\p{Lower}\p{Ll}\p{Lowercase_Letter}
を使用するコードはさらに悪いです。また、またはは[a-zA-Z]使用できません。を使用する必要があります。ご存知のように、すべてのアルファベットが文字であるわけではありません。\pL\p{Letter}\p{Alphabetic}
で �� 変数を探している場合/[\$\@\%]\w+/、問題があります。を探す必要があります/[\$\@\%]\p{IDS}\p{IDC}*/が、それでも句読点変数やパッケージ変数は考慮されません。
空白をチェックする場合は、状況に応じてとのどちらかを選択する必要があり\hます。また、はを意味しないという一般的な考えに反して、\vを使用しないでください。\s [\h\v]
\n線の境界に、あるいはを使用している場合は\r\n、それは間違いです。を使用する必要がありますが\R、これは同じではありません。
いつ電話すればいいのか分からない場合Unicode::文字列の準備なら、学んだほうがいいですよ。
大文字と小文字を区別しない比較では、2つの文字が発音区別記号などに関係なく同じ文字であるかどうかを確認する必要があります。これを行う最も簡単な方法は、標準 Unicode::Collateモジュール。メソッドなどUnicode::Collate->new(level => 1)->cmp($a, $b)もありeq、matchおよびsubstrメソッドについても学習する必要があります。これらは、�� 組み込み関数に比べて明確な利点があります。
時にはそれだけでは十分ではなく、Unicode::Collate::Locale はモジュールの代わりに、代わりにUnicode::Collate::Locale->new(locale => "de__phonebook", level => 1)->cmp($a, $b)。はUnicode::Collate::->new(level => 1)->eq("d", "ð")真ですが、Unicode::Collate::Locale->new(locale=>"is",level => 1)->eq("d", " ð")は偽です。同様に、「ae」と「æ」はeqロケールを使用しない場合、または英語のロケールを使用する場合ですが、アイスランドのロケールでは異なります。それでは、どうしますか？難しいですよ。ucsortこれらのいくつかをテストします。
文字列「 niño 」のパターン CVCV (子音、母音、子音、母音) を一致させる方法を考えてみましょう。NFD形式 (これは絶対に入れておくべきでした) は「nin\x{303}o」になります。では、どうしますか? 母音であると仮定しても[aeiou](ちなみにこれは間違っています)、どちらも同じようにはできません(?=[aeiou])\X)。なぜなら、NFD でも 'ø' のようなコードポイントは分解されないからです。ただし、先ほど示した UCA 比較を使用すると、'o' と等しいとテストされます。NFD に頼ることはできず、UCA に頼る必要があります。

��

それだけではありません。Unicode に関して人々が抱く誤った思い込みは無数にあります。人々がこれらのことを理解しない限り、彼らのコードは壊れたままです。

エンコーディングを指定せずにテキストファイルを開くことができると想定しているコードは壊れています。
デフォルトのエンコーディングが何らかのネイティブプラットフォームエンコーディングであると想定するコードは壊れています。
日本語または中国語の Web ページは UTF-8 よりも UTF-16 の方がスペースをあまり取らないと想定するコードは間違っています。
Perl が内部的に UTF-8 を使用すると想定するコードは間違っています。
エンコードエラーによって常に例外が発生すると想定するコードは間違っています。
Perl コードポイントが 0x10_FFFF に制限されていると想定するコードは間違っています。
$/任意の有効な行区切り文字で機能するものに設定できると想定するコードは間違っています。
lc(uc($s)) eq $sまたはのように、casefolding での往復の等価性を前提とするコードは完全に壊れていて間違っています。とは両方ともですが、その両方を返すことは不可能であるuc(lc($s)) eq $sことを考慮してください。uc("σ")uc("ς")"Σ"lc("Σ")
すべての小文字のコードポイントに大文字のコードポイントが 1 つずつある (またはその逆) と想定するコードは壊れています。たとえば、は"ª"大文字のない小文字ですが、と"ᵃ"は"ᴬ"どちらも文字ですが小文字ではありません。ただし、どちらも対応する大文字バージョンがない小文字のコードポイントです。わかりましたか?どちらもとであるにもかかわらず、ではありません 。\p{Lowercase_Letter}\p{Letter}\p{Lowercase}
大文字と小文字を変更しても文字列の長さは変わらないと想定しているコードは壊れています。
ケースが 2 つしかないと想定しているコードは壊れています。タイトルケースもあります。
文字だけが大文字と小文字を持つと想定しているコードは壊れています。文字だけでなく、数字、記号、マークにも大文字と小文字があります。実際、大文字と小文字を変更すると、\p{Mark}がに変わるなど、主な一般カテゴリが変わることもあります\p{Letter}。また、あるスクリプトから別のスクリプトに切り替えることもできます。
大文字と小文字がロケールに依存しないことを前提とするコードは壊れています。
Unicode が POSIX ロケールに関する情報を提供すると想定しているコードは壊れています。
発音区別符号を削除して基本 ASCII 文字を取得できると想定するコードは、邪悪で、静止していて、壊れていて、脳に損傷があり、間違っており、死刑を正当化するものです。
\p{Diacritic}発音区別符号と記号\p{Mark}が同じものであると想定するコードは壊れています。
\p{GC=Dash_Punctuation}壊れている部分をカバーすることを前提としたコード\p{Dash}。
ダッシュ、ハイフン、マイナスが互いに同じものである、またはそれぞれ 1 つしかないと想定するコードは壊れており、間違っています。
各コードポイントが 1 つの印刷列しか占めないと想定するコードは壊れています。
\p{Mark}すべての文字が 0 個の印刷列を占めると想定するコードは壊れています。
似ている文字は同じであると想定するコードは壊れています。
似ていない文字は似ていないと想定するコードは壊れています。
行内のコードポイントの数に制限があり、\X一致するのは 1 つだけであると想定するコードは間違っています。
\X文字で始まることができないと想定するコードは\p{Mark}間違っています。
\Xが2 つの非文字を保持できないと想定するコードは\p{Mark}間違っています。
使用できないことを前提としたコードは"\x{FFFF}"間違っています。
2 つの UTF-16 (サロゲート) コードユニットを必要とする非 BMP コードポイントが、コードユニットごとに 1 つずつ、2 つの別々の UTF-8 文字にエンコードされると想定するコードは間違っています。そうではありません。単一のコードポイントにエンコードされます。
先頭に BOM がある UTF-16 または UTF-32 から UTF-8 にトランスコードするコードは、結果の UTF-8 の先頭に BOM が付くと壊れます。これはあまりにも愚かなので、エンジニアはまぶたを切除するべきです。
CESU-8 が有効な UTF エンコーディングであると想定しているコードは間違っています。同様に、U+0000 を"\xC0\x80"UTF-8 としてエンコードすると考えるコードも壊れていて間違っています。これらの人々もまぶたの処置を受けるに値します。
>常に右を指し、<常に左を指すような文字を想定するコードは間違っています。実際にはそうではないからです。
X最初に文字を出力し、次に文字を出力した場合にY、それらがとして表示されることを想定するコードはXY間違っています。そうならない場合もあります。
英語を正しく書くには ASCII で十分だと想定するコードは、愚かで、近視眼的で、無学で、壊れていて、邪悪で、間違っています。首をはねましょう! それが極端すぎると思われるなら、妥協しましょう。今後は片足の親指だけで入力できます。(残りの部分はダクトテープで固定します。)
\p{Math}すべてのコードポイントが可視文字であると想定するコードは間違っています。
\w文字、数字、アンダースコアのみが含まれていると想定するコードは間違っています。
^およびが~句読点であると想定するコードは間違っています。
üウムラウトがあると想定しているコードは間違っています。
₨何か文字が含まれていると想定するコードは間違っています。
\p{InLatin}同じであると信じているコードは\p{Latin}、ひどく壊れています。
\p{InLatin}ほとんどの場合役に立つと信じているコードは、ほぼ間違いなく間違っています。
$FIRST_LETTERあるアルファベットの最初の文字として与えられ、$LAST_LETTER同じアルファベットの最後の文字として与えられれば、[${FIRST_LETTER}-${LAST_LETTER}]何らかの意味を持つと信じているコードは、ほとんどの場合、完全に壊れていて、間違っており、意味がありません。
誰かの名前には特定の文字しか使用できないと信じているコードは愚かで、不快で、間違っています。
Unicode を ASCII に縮小しようとするコードは単に間違っているだけでなく、その実行者は二度とプログラミングに従事することを許されるべきではありません。以上です。これまでのところ、明らかにあまり良い結果をもたらしていないので、彼らが再び目が見えるようになることさえ許されるべきかどうかさえ確信が持てません。
テキストファイルのエンコーディングが存在しないかのように見せかける方法があると信じているコードは壊れていて危険です。もう片方の目も突き刺すようなものです。
不明な文字をに変換するコードは?壊れていて、愚かで、頭が悪く、標準の推奨事項に反して実行されます。標準の推奨事項では、そうしてはいけないとされています。なぜそうしてはいけないのか、RTFM で確認してください。
マークされていないテキストファイルのエンコードを確実に推測できると信じているコードは、傲慢さと無知さの致命的な混合の罪を犯しており、それを修正できるのはゼウスの稲妻だけです。
printf�� 幅を使用して Unicode データをパディングおよび位置揃えできると想定しているコードは壊れており、間違っています。
特定の名前でファイルを正常に作成すると、そのファイルを囲むディレクトリでlsまたはを実行readdirすると、実際には作成した名前のファイルにバグがあり、壊れていて、間違っていることがわかると信じているコード。これに驚かないでください。
UTF-16 が固定幅エンコーディングであると信じているコードは愚かで、壊れていて、間違っています。そのプログラミングライセンスを取り消してください。
あるプレーンのコードポイントを他のプレーンのコードポイントと少しでも異なる方法で扱うコードは、ipso facto壊れていて間違っています。学校に戻って勉強してください。
/s/iのようなものだけが一致すると信じているコードは壊れてい"S"て"s"間違っています。驚くでしょう。
\PM\pM*を使用する代わりにを使用するコードは\X壊れていて間違っています。
ASCII の世界に戻りたい人は、心からそうするように奨励されるべきであり、彼らの輝かしいアップグレードを記念して、データ入力に必要なすべての機能を備えた、電気以前の手動タイプライターを無料で提供すべきです。彼らに送られるメッセージは、1 行あたり 40 文字の ᴀʟʟᴄᴀᴘs 電信で送信され、宅配業者によって手渡されるべきです。やめてください。

��

私が書いたものより「�� のデフォルトの Unicode」がどれだけ入手できるかはわかりません。ええ、わかります。とも使用する必要がありますUnicode::Collate。Unicode::LineBreakおそらく、それ以上でしょう。

ご覧のとおり、実際に心配しなければならないUnicode関連の事柄が多すぎるため、「Unicode をデフォルトにする」というようなことはあり得ません。

皆さんが発見するのは、私たちが �� 5.8 で発見したのと同じように、最初から考慮して設計されていないコードにこれらすべてのことを強制することは不可能だということである。皆さんの善意の利己心が世界全体を破壊したのだ。

そして、たとえそれができたとしても、正しく理解するにはかなりの思考を必要とする重要な問題がまだあります。スイッチを入れることはできません。ここでは頭脳、つまり本物の頭脳だけが役に立ちます。学ばなければならないことが山ほどあります。手動タイプライターに退却したとしても、無知のままでやり過ごすことは絶対に望めません。今は 21 世紀であり、故意に無知なまま Unicode を消滅させることは不可能です。

それを学ばなければなりません。以上です。「すべてがうまくいく」というのは決して簡単なことではありません。なぜなら、そうすると多くのことがうまくいかないことが保証され、「すべてをうまく機能させる」方法が存在するという仮定が無効になるからです。

ごく少数の非常に限定された操作に対して、いくつかの妥当なデフォルトを取得できるかもしれませんが、私が考えているよりもはるかに多くのことを考えなければ、それは不可能です。

ほんの一例ですが、正規の順序付けは本当に頭の痛い問題です。 "\x{F5}" ' õ' 、"o\x{303}" 'õ'、"o\x{303}\x{304}" 'ȭ'、"o\x{304}\x{303}" 'ō̃'はすべて'õ'に一致するはずですが、一体どうやってそれを実現するのでしょうか。これは見た目よりも難しいですが、考慮する必要があることです。

Perl について私が知っていることが 1 つあるとすれば、それは Unicode ビットが何を実行し、何を実行しないかということです。そして、次のことは保証します。「̲ᴛ̲ʜ̲ᴇ̲ʀ̲ᴇ̲ ̲ɪ̲s̲ ̲ɴ̲ᴏ̲ ̲U̲ɴ̲ɪ̲ᴄ̲ᴏ̲ᴅ̲ᴇ̲ ̲ᴍ̲ᴀ̲ɢ̲ɪ̲ᴄ̲ ̲ʙ̲ᴜ̲ʟ̲ʟ̲ᴇ̲ᴛ̲ ̲ 」

いくつかのデフォルトを変更するだけで、スムーズに進むというわけではありません。PERL_UNICODEをに設定してを実行するのは事実"SA"ですが、それだけです。しかも、それも主にコマンドラインでの操作です。実際の作業では、上記で概説した多くの手順をすべて実行し、非常に**非常に**慎重に実行します。

�� ああ、私たちはプールで泳ぐことができるの？ ��

Answer 1