ファイルの「テキスト内容」を取得します。

Question

stringsと友達を除いて、テキストファイルのデータを解析できるUnixコマンドラインツールを見たことはありません。これらのツールはすべて、データがテキスト形式であると想定しています。grepawk

PDFやWord文書などのファイルはテキストデータをバイナリ形式でエンコードするため、それを解析する他のツールの助けなしにはアクセスできません。これらのツールは通常トリックであり、通常、これらのバイナリファイル形式の1つまたはいくつかのみを処理できます。

このfileコマンドを使用してファイルの種類を識別できます。

$ file /usr/share/cups/data/default.pdf
/usr/share/cups/data/default.pdf: PDF document, version 1.5

man file使い方の詳細については、参考資料をご覧ください。

インデックスツールに含まれるツールを調整または検索できます。ルツェルン（例えば：PDF&MSOffice文書）、これは人々が通常毎日処理するファイルの少なくともかなりの部分でこのテキストを解析することができます。まず、PDF、Word、Libre Officeのファイル形式と競合すると予想します。

これらのツールは、一部のバイナリを少なくとも部分的に読み取ることができるため、ここに追加してそれに関するアイデアを提供します。すべての内容は含まれていませんが、あなたには役に立ちます。

Answer 1

stringsと友達を除いて、テキストファイルのデータを解析できるUnixコマンドラインツールを見たことはありません。これらのツールはすべて、データがテキスト形式であると想定しています。grepawk

PDFやWord文書などのファイルはテキストデータをバイナリ形式でエンコードするため、それを解析する他のツールの助けなしにはアクセスできません。これらのツールは通常トリックであり、通常、これらのバイナリファイル形式の1つまたはいくつかのみを処理できます。

このfileコマンドを使用してファイルの種類を識別できます。

$ file /usr/share/cups/data/default.pdf
/usr/share/cups/data/default.pdf: PDF document, version 1.5

man file使い方の詳細については、参考資料をご覧ください。

インデックスツールに含まれるツールを調整または検索できます。ルツェルン（例えば：PDF&MSOffice文書）、これは人々が通常毎日処理するファイルの少なくともかなりの部分でこのテキストを解析することができます。まず、PDF、Word、Libre Officeのファイル形式と競合すると予想します。

これらのツールは、一部のバイナリを少なくとも部分的に読み取ることができるため、ここに追加してそれに関するアイデアを提供します。すべての内容は含まれていませんが、あなたには役に立ちます。

おすすめ記事