trをutf-8機能に置き換える

Question

trマルチバイト文字とその代替のいくつかのGNU実装の制限は次のとおりです。Unicode文字のtrシミュレーション？。

ここですべてのことができますawk（GNU実装は少なくともマルチバイト文字とローカライズをサポートします）。

< yourfile awk '{
  last = tolower($NF)
  gsub(/[^[:alpha:]]+/, "\n", last)
  print last}' |
  rev | sort -u | rev

これは作る:


pietà
fanno
affanno
scritto

または、各行から最後の文字シーケンスを取得することが目的である場合は、次のように使用しますperl（ロケールに応じてすべてのデコードを実行し、小文字、逆方向、ロケールの組み合わせに変換することもできます）。

<your-file perl -Mopen=locale -MPOSIX -lne '
  $word{lc $1}++ if /(\p{Letter}+)\P{Letter}*$/;
  END {
    print $_->[0] for
      sort {strcoll($a->[1], $b->[1])}
      map {[$_, scalar reverse $_]} keys %word
  }'

またはGNUツールを使用してください。

<yourfile grep -Po '\pL+(?=\PL*$)' | sed 's/.*/\L&/' | rev | sort -u | rev

または、次のコマンドを使用して最後の文字シーケンスを抽出しますsed。

<yourfile sed -E '/([[:alpha:]]+)[^[:alpha:]]*$/!d;s//\n\L\1/;s/.*\n//' |
  rev | sort -u | rev

最初の作業の後に行うと簡単になりますrev。

<yourfile rev |
  sed -nE 's/^[^[:alpha:]]*([[:alpha:]]+).*$/\L\1/p' |
  sort -u | rev

Answer 1