Recollで作成されたデータベースからテキストファイルとディレクトリ構造を回復しますか?

Recollで作成されたデータベースからテキストファイルとディレクトリ構造を回復しますか?

しばらく前に走って記録そのパーティション内のすべてのファイル(テキストファイル、pdf、djvu、htmlなど)の内容内ですべてのテキスト情報をすばやく検索できるように、パーティションにデータベースを作成します。

Recollはデータベースを作成したパーティションを誤って削除しましたが、Recollのデータベースは影響を受けていない別のパーティションに保存されているため、Recollから削除されたファイルを検索し続けることができます。

  1. 削除されたファイルのテキストコンテンツからキーワードを検索すると、キーワードの周囲に1〜2行のコンテキストが表示されるため、削除された各テキストコンテンツを復元できることを願っています。ただし、Recollが見つかった削除されたファイルで「プレビュー」または「開く」をクリックすると、Recollはもはや存在しないファイルを開こうとすると当然失敗します。 その後、Recollのデータベースから削除されたテキストファイルを回復できるかどうかを知りたいと思います。

  2. このように削除されたファイルのテキスト内容からキーワードを検索すると、見つかった各ファイルのフルパスも表示できますが、 もしそうなら、Recollのデータベースから私のパーティションのディレクトリ構造を復元できるかどうか疑問に思います。

ありがとうございます!

ベストアンサー1

まず、データ損失について哀悼の意を表します。この回答はほぼ8年後にはあなたには役に立たないかもしれませんが、他の人には役に立つことを願って答えます。

Recollのデータベースから削除されたテキストファイルを回復できるかどうかを知りたいです。

はい、再構成された文書のテキストを復元できますが、いくつかの注意事項があります。

Recollデータベースが私のパーティションのディレクトリ構造を復元できるかどうかを知りたいです。

はい、いくつかの注意事項を適用すると、ファイルパスを復元し、ここからディレクトリ構造を再構築できます。

xadumpこれは、次のコマンドを使用して実行できますrecoll

これダンプファイルコマンドは、Recoll インデクサーで構成された Xapian インデックスの低レベルアクセスおよび診断ツールです。オプションを使用して、使用するインデックスディレクトリを指定します。-D

オプション -D、-X、-T、-r は単一項目を使用します。都市オプションで指定されたパラメーター-私-D文書データの履歴を表示します。

[。 。 。 ]

-アル字型インデックスデータから再構成された文書テキストを印刷します。

[。 。 。 ]

オプションがあります- キュー、xadump は、指定された用語引数を使用してインデックスに対して単純な AND クエリを実行します。

https://www.lesbonscomptes.com/recoll/manpages/xadump.1.html

たとえば、「スタンドアロン」を検索するには、次のコマンドが機能します。

xadump -d ~/.recoll/xapiandb/ -q 'independence' | less

クエリ結果の最初の部分は次のとおりです。

DB: ndocs 100204 lastdocid 105155 avglength 7675.26
DB: terms are stripped
Performing query `Query(independence)'
Estimated results: 659

結果の1つは次のとおりです。

ドキュメントID 89464 98% [url=file:///home/nathaniel/Dropbox/archive/2020/personal/projects/public-domain-documents/declaration-of-independent-html/index.html

mtype=テキスト/html

fmtime=01585682999

元の文字セット=utf-8

fバイト=9365

pcbyte=9365

分割バイト=8124

シグ=93651585683000

キャプション=アメリカ合衆国の独立宣言

要約=?これ

ファイル名=index.html

]

file://これにより、パスを含むURLを表示できます。

/home/nathaniel/Dropbox/archive/2020/personal/projects/public-domain-documents/declaration-of-independent-html/index.html

もちろん、ディレクトリ構造全体を再構築するには、各文書に対してこれを行う必要があります。これを自動化することは可能かもしれませんが、正しく実行するのは面倒で時間がかかります。これは、インデックス付けされていないファイルを再構築するのにも役立ちません。

次のコマンドを使用して文書テキストを再構成できます。

xadump -d ~/.recoll/xapiandb/ -i 89464 -r

これは次のとおりです(簡潔さのために3行目をカットしました)。

データベース: ndocs 100204 Lastdocid 105155 平均長さ 7675.26

DB:該当する条項が削除されました。

XP XPhome XPnathaniel XPDropbox XParchive XP2020 XPpersonal XPprojects、ある人が他の人と結びつく政治的絆を解消し、自然法と法律に基づいて地球の力の間で独立した平等な位置を占めることが必要です。自然の神は彼らに人間の意見を合理的に尊重し、彼らが別れた原因を明らかにするように求めました。 [...]

元のHTMLファイルは次のとおりです。

<h1>
  THE DECLARATION OF INDEPENDENCE OF THE UNITED STATES OF AMERICA
</h1>
<p>
When in the Course of human events, it becomes necessary for one people to
dissolve the political bands which have connected them with another, and to
assume, among the Powers of the earth, the separate and equal station to
which the Laws of Nature and of Nature's God entitle them, a decent respect
to the opinions of mankind requires that they should declare the causes
which impel them to the separation.
</p>

これには再構成されたテキストが含まれていますが、いくつかの問題があります。

  1. 大文字は使用しません。すべては小文字です。

  2. 句読点はありません。

  3. 改行文字がありません。すべてが一行にあります。

それはHTMLではありません。以下は、プロジェクトGutenbergの「理性と感性」のテキスト専用バージョンの復元されたテキストの一部です。

理性と感性Jane Austen 1811第1章Dashwoodファミリーは長い間Sussexに住み、住居は私有地の中央にあるNolan Parkに位置しています。周囲の知人から総合的な賞賛を受ける

元のテキストは次のとおりです。

SENSE AND SENSIBILITY

by Jane Austen

(1811)




CHAPTER 1


The family of Dashwood had long been settled in Sussex.  Their estate
was large, and their residence was at Norland Park, in the centre of
their property, where, for many generations, they had lived in so
respectable a manner as to engage the general good opinion of their
surrounding acquaintance.

https://www.gutenberg.org/cache/epub/161/pg161.txt

出力にはが含まれていますlastdocid 105155。これを念頭に置いて、再構成されたテキストをダンプするスクリプトの下書きは次のとおりです。

#! /usr/bin/env bash

IMAX=105155
for ((i=1;i<=IMAX;i++))
do
    xadump -d ~/.recoll/xapiandb/ -i "$i" -r > "$i.txt"
done

私のコンピュータでは、最初の100個の文書に対してこれを行うのに約3秒かかります。したがって、100,000個の文書全体についてはおそらく1時間もかかりません。

おすすめ記事