ファイルのテキスト内容を取得するツールがあるかどうか疑問に思います。基本的に私はpdf、word文書、zip、または他のファイルを入れて、その中に含まれるテキストを取得したいと思います。
一連の印刷可能文字を印刷できますが、strings
多くの圧縮形式では機能しません。 「愚かな」特性は、通常、単にテキストを印刷するよりも多くのことを行うことを意味します。ただし、不明なファイル形式には良い選択肢があります。
私が望むものをほぼ正確に実行するコマンドがありますが、pdftotext
PDFでのみ動作します。
複数の形式、またはこれらのツールを組み合わせて処理できるツールはありますか?
追加情報
多くの人が自分のツールが標準ではないと言いました。私はこれが良いことを指摘したい。
ベストアンサー1
strings
と友達を除いて、テキストファイルのデータを解析できるUnixコマンドラインツールを見たことはありません。これらのツールはすべて、データがテキスト形式であると想定しています。grep
awk
PDFやWord文書などのファイルはテキストデータをバイナリ形式でエンコードするため、それを解析する他のツールの助けなしにはアクセスできません。これらのツールは通常トリックであり、通常、これらのバイナリファイル形式の1つまたはいくつかのみを処理できます。
このfile
コマンドを使用してファイルの種類を識別できます。
はい
$ file /usr/share/cups/data/default.pdf
/usr/share/cups/data/default.pdf: PDF document, version 1.5
man file
使い方の詳細については、参考資料をご覧ください。
Lucene、Solar、その他の索引付けツール
インデックスツールに含まれるツールを調整または検索できます。ルツェルン(例えば:PDF&MSOffice文書)、これは人々が通常毎日処理するファイルの少なくともかなりの部分でこのテキストを解析することができます。まず、PDF、Word、Libre Officeのファイル形式と競合すると予想します。
その他のツール
これらのツールは、一部のバイナリを少なくとも部分的に読み取ることができるため、ここに追加してそれに関するアイデアを提供します。すべての内容は含まれていませんが、あなたには役に立ちます。