以前の答えには、まだ（IMO）の有用な情報が含まれています。

Question

入力ファイルを含むコメントで見つかりましたビッグエンディアン方式 UTF-16従来の一般的な7ビットASCIIまたは8ビット拡張ASCIIの代わりにフォーマットを使用します。 UTF-16は文字ごとに2バイト形式であり、通常のASCIIをエンコードするために使用される場合は、「ASCII」文字0x00（NULバイト、Aバイト-バイトペア（ビッグエンディアン、反対側のリトルエンディアン）^@）cat -Aless

回避策は、ファイルを通常のASCIIに変換することです。たとえば、標準または類似のユーティリティを使用してCR-LF（dos / windows行の終わり）をLF（unix行の終わり）に変換する代わりに、次のようにしてfromdosテキストを残りの部分で利用可能な形式に変換する必要があります。スクリプトsed:

sed -e '1 s/^\xff\xfe|^\xfe\xff//; s/\x00//g; s/\x0d$//'

このsedスクリプトは次のとおりです。

0xfffe最初の行の先頭からバイト順のマークを削除または削除します。0xfeff
発生位置に関係なく、すべての入力行からすべてのNUL文字を削除します。
0x0d行末のキャリッジリターン文字（）を削除します。

注：これはASCII文字のみを含むUTF-16エンコーディングテキストでのみ機能します。他の種類の文字（英語以外のテキストなど）を含むUTF-16テキストファイルを完全に破損させます。

最後に、perl純粋なASCII、UTF-8、UTF-16などを含むさまざまな一般形式のテキストの優れたサポートがあります。すべての形式を処理し、すべての形式間変換用のライブラリモジュールがあります。単純なスクリプトをに変換するのはsed非常に簡単なperlので、スクリプトのPerlバージョンは単純かもしれません（テストされていませんが動作するかもしれません）。

#!/usr/bin/perl

use strict;
use feature 'unicode_strings';

while(<>) {

  s/^\xff\xfe|^\xfe\xff// if ($. == 1);  # strip Byte Order marker from 1st line

  s/\x0d$//;  # strip CR from each end-of-line
  s/ *"/"/g;  # get rid of all spaces immediately before " characters
  s/" */"/g;  # get rid of all spaces immediately after " characters

  # A very primitive split(). Should use a real CSV parser here, like the
  # Text::CSV module which properly copes with embedded quotes and commas etc
  # in string fields.   This would also allow proper processing of each field to
  # remove any extra whitespace characters rather than the quick-and-dirty hack of
  # global regexp substitutions above.
  my @fields = split /,/;

  # perl arrays start from zero.  This appends the "fake" field 42 onto field 41,
  # and then deletes field 42.
  $fields[40] .= $fields[41];
  delete $fields[41];

  print join(',',@fields), "\n";
}

以前の答えには、まだ（IMO）の有用な情報が含まれています。

awk。より作業に優れたツールがありますsed。

たとえば、GNU（またはなどのPCREを理解するawk他のツール）を使用すると、次のようになります。awk\s\S

awk '{$0=gensub(/\s*(\S+)/,"\\1",42)}1' original > fixed

42列の直前のすべてのスペースを削除して、41列と42列をマージします。

PCREでない場合は、次のものを代わりに使用しawkてください。[[:space:]]\s[^[:space:]]\S

awk '{$0=gensub(/[[:space:]]*(\[^[:space:]]+)/,"\\1",42)}1' original > fixed

また、入力ファイルの正確な特性に応じて、この操作の場合。perlより良いかもしれませんawk。たとえば、CSVファイルを解析し、CSVレコードの個々のフィールドを処理するモジュールがあります。

ところで、私の考えにはこのsedスクリプトがひどいと思います。これは、コマンド区切り文字として単一のsedスクリプトの代わりに複数の引数を使用しているためです-e。;使用したい場合は、sed少なくとも効果的かつ効率的に使用してください。あなたのsedスクリプトは次のように書くのが最善です。

sed -e 's/ \{1,\}"/"/g; s/" \{1,\}/"/g; s/","//41' original > fixed

でも:

sed -e 's/ \{1,\}"/"/g
        s/" \{1,\}/"/g
        s/","//41' original > fixed

それでもエラーを修正する必要がありますが、少なくともデバッグできる読みやすさがあるため、問題をより簡単に見つけることができます。

また、あなたが思うように、「所定の位置」の編集ではない場合もあります-i。--in-place一時ファイルを作成し、その場所に移動する方法で動作します。これにより、ハードリンクを含むinodeを変更せずに維持する必要があるすべてのエントリが中断されます。

cat temp.txt > original.txt; rm temp.txt変更された出力を一時ファイル（temp.txtなど）に書き込んでから、同じinodeを維持しながら元のファイルを変更されたバージョンで上書きすることをお勧めします。

Answer 1

入力ファイルを含むコメントで見つかりましたビッグエンディアン方式 UTF-16従来の一般的な7ビットASCIIまたは8ビット拡張ASCIIの代わりにフォーマットを使用します。 UTF-16は文字ごとに2バイト形式であり、通常のASCIIをエンコードするために使用される場合は、「ASCII」文字0x00（NULバイト、Aバイト-バイトペア（ビッグエンディアン、反対側のリトルエンディアン）^@）cat -Aless

回避策は、ファイルを通常のASCIIに変換することです。たとえば、標準または類似のユーティリティを使用してCR-LF（dos / windows行の終わり）をLF（unix行の終わり）に変換する代わりに、次のようにしてfromdosテキストを残りの部分で利用可能な形式に変換する必要があります。スクリプトsed:

sed -e '1 s/^\xff\xfe|^\xfe\xff//; s/\x00//g; s/\x0d$//'

このsedスクリプトは次のとおりです。

0xfffe最初の行の先頭からバイト順のマークを削除または削除します。0xfeff
発生位置に関係なく、すべての入力行からすべてのNUL文字を削除します。
0x0d行末のキャリッジリターン文字（）を削除します。

注：これはASCII文字のみを含むUTF-16エンコーディングテキストでのみ機能します。他の種類の文字（英語以外のテキストなど）を含むUTF-16テキストファイルを完全に破損させます。

最後に、perl純粋なASCII、UTF-8、UTF-16などを含むさまざまな一般形式のテキストの優れたサポートがあります。すべての形式を処理し、すべての形式間変換用のライブラリモジュールがあります。単純なスクリプトをに変換するのはsed非常に簡単なperlので、スクリプトのPerlバージョンは単純かもしれません（テストされていませんが動作するかもしれません）。

#!/usr/bin/perl

use strict;
use feature 'unicode_strings';

while(<>) {

  s/^\xff\xfe|^\xfe\xff// if ($. == 1);  # strip Byte Order marker from 1st line

  s/\x0d$//;  # strip CR from each end-of-line
  s/ *"/"/g;  # get rid of all spaces immediately before " characters
  s/" */"/g;  # get rid of all spaces immediately after " characters

  # A very primitive split(). Should use a real CSV parser here, like the
  # Text::CSV module which properly copes with embedded quotes and commas etc
  # in string fields.   This would also allow proper processing of each field to
  # remove any extra whitespace characters rather than the quick-and-dirty hack of
  # global regexp substitutions above.
  my @fields = split /,/;

  # perl arrays start from zero.  This appends the "fake" field 42 onto field 41,
  # and then deletes field 42.
  $fields[40] .= $fields[41];
  delete $fields[41];

  print join(',',@fields), "\n";
}

以前の答えには、まだ（IMO）の有用な情報が含まれています。

awk。より作業に優れたツールがありますsed。

たとえば、GNU（またはなどのPCREを理解するawk他のツール）を使用すると、次のようになります。awk\s\S

awk '{$0=gensub(/\s*(\S+)/,"\\1",42)}1' original > fixed

42列の直前のすべてのスペースを削除して、41列と42列をマージします。

PCREでない場合は、次のものを代わりに使用しawkてください。[[:space:]]\s[^[:space:]]\S

awk '{$0=gensub(/[[:space:]]*(\[^[:space:]]+)/,"\\1",42)}1' original > fixed

また、入力ファイルの正確な特性に応じて、この操作の場合。perlより良いかもしれませんawk。たとえば、CSVファイルを解析し、CSVレコードの個々のフィールドを処理するモジュールがあります。

ところで、私の考えにはこのsedスクリプトがひどいと思います。これは、コマンド区切り文字として単一のsedスクリプトの代わりに複数の引数を使用しているためです-e。;使用したい場合は、sed少なくとも効果的かつ効率的に使用してください。あなたのsedスクリプトは次のように書くのが最善です。

sed -e 's/ \{1,\}"/"/g; s/" \{1,\}/"/g; s/","//41' original > fixed

でも:

sed -e 's/ \{1,\}"/"/g
        s/" \{1,\}/"/g
        s/","//41' original > fixed

それでもエラーを修正する必要がありますが、少なくともデバッグできる読みやすさがあるため、問題をより簡単に見つけることができます。

また、あなたが思うように、「所定の位置」の編集ではない場合もあります-i。--in-place一時ファイルを作成し、その場所に移動する方法で動作します。これにより、ハードリンクを含むinodeを変更せずに維持する必要があるすべてのエントリが中断されます。

cat temp.txt > original.txt; rm temp.txt変更された出力を一時ファイル（temp.txtなど）に書き込んでから、同じinodeを維持しながら元のファイルを変更されたバージョンで上書きすることをお勧めします。

以前の答えには、まだ（IMO）の有用な情報が含まれています。

ベストアンサー1

以前の答えには、まだ（IMO）の有用な情報が含まれています。

おすすめ記事