ベストアンサー1
(巨大な表を使用せずに)日本語漢字と日本語で使用されていない漢字表の文字(中国語や韓国語の変形など)を区別することは不可能です。
デフォルトの範囲(\u4e00〜\u9fff)の漢字表の文字を検出したい場合は、3バイトにエンコードされます。最初のバイトは常に0xe4と0xe9の間で、2番目と3バイトは0x80と0xbfの間です。
これには2つの困難があります。まず、文字以外のバイトを処理したいとgrepに指示してから、0xe4、0xe9、0x80、および0xbfバイトを入力して正規表現に入れる必要があります。
-Pスイッチが望むラインは次のとおりです。
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]"
仮名も必要な場合:
grep -P "[\xe4-\xe9][\x80-\xbf][\x80-\xbf]|\xe3[\x81-\x83][\x80-\xbf]"