テキストファイルからロシア語とアラビア語の文字列を削除する方法

Question

これは少なくともあなたの例ではうまくいきます。

$ perl -CS -Mutf8 -lne 's{ 
            (?= [\p{Arabic}\p{Cyrillic}] ) 
            [\p{Arabic}\p{Cyrillic}\p{Common}\p{Inherited}] + 
            (?<= [\p{Arabic}\p{Cyrillic}] ) }{}xg || print' < file

kedi
cat
candy
şeker
çağrı
resumé

基本的なアイデアは、\pコードポイントセット（この場合はアラビア語またはキリル文字）を定義することです。行が一致すると印刷されません。残念ながら、私自身も詳細を理解していません。@tchrist存在するチャット。そこから彼の説明を読んでください。今は正規表現を解読する時間がありませんが、直接理解する機会ができるように説明を追加します。ソースを見ると、以下のミニマリストバージョンよりも完全で安全であると仮定します。

私の理解の単純化されたバージョンは次のとおりです。

$ perl  -CS -ne '/[\p{Arabic}\p{Cyrillic}]+/ || print' < file

これにより、アラビア語またはキリル文字を含まないすべての行が印刷されます。ただ。 STDIN、STDOUT、およびSTDERRはすべてUnicodeです-CS。perlその-ne意味は、「各入力行を読み、与えられたスクリプトを適用します。行が一致しない場合は-eアクション/foo/ || barを実行することを意味します。この場合、行がアラビア語またはキリル文字と一致しない場合は印刷します。barfoo

最後に、\p{}これは（からman perluniprops）：

   The Perl regular expression "\p{}" and "\P{}" constructs give access to
   most of the Unicode character properties.

これにより、アラビア語、キリル文字、または考えられるほとんどすべての文字など、さまざまな文字を一致させることができます。したがって、キャラクタークラス [\p{foo}]スクリプトのすべての文字と一致しますfoo。したがって、[\p{Arabic}\p{Cyrillic}]両方のスクリプトのすべての文字が一致します。

Answer 1