訪問したすべてのWebページのプレーンテキストコンテンツを自動的に保存しますか?

訪問したすべてのWebページのプレーンテキストコンテンツを自動的に保存しますか?

私が訪問した各WebページのテキストをHTML文書ではなく、そのテキスト文書に自動的に保存したいと思います。私はすべてのスタイルとHTMLテーブルと他の不必要に無駄なバイトなどの追加の重複コードを保存したくありません。私は貴重な情報、つまり訪問した各Webページのテキスト情報だけを保存できるようにしたいです。

したがって、Webテキストファイルはこのように保存できると思います。

Website_Title.txt

そして、文書の内部にはそのWebページのテキストのみが含まれます。以下のxclipスクリプトに似ていますが、自動的にページ全体を保存します。そのWebページのタグから<title></title>ファイル名のタイトルを収集します。

これは可能ですか?おそらく「xclip」アプリケーションの助けを借りて可能でしょうか?おそらくそれ自体ではないかもしれません。 「xclip」が自動的に行われないので、私の考えには...


現在、私はキーボードショートカットを押した後に選択したテキストを保存するために「xclip」を使用しています。

たとえば、次のようになります...選択したテキストを下に保存したい場合:

ここに画像の説明を入力してください。

私の場合は、Ctrl + Shift + Xを押します。

これにより、次のファイルが保存されます。

ここに画像の説明を入力してください。

ファイルの内部は次のとおりです。

ここに画像の説明を入力してください。



同じことをしたいのですが、目的のテキストを選択して保存するのではなく、Ctrl + Aを使用しているかのようにページ全体を保存し、コンテンツを保存して各ページを自動的にサイトに追加します。タイトルファイル名。

お時間をいただきありがとうございます。



ああ、誰かが私のスクリプトを使いたいならxclip-save-selection.shここに行きます:

#!/bin/sh
#
#           _  _                                               _           _    _                    _    
# __ __ __ | |(_) _ __  ___  ___ __ _ __ __ ___  ___  ___ ___ | | ___  __ | |_ (_) ___  _ _      ___| |_  
# \ \ // _|| || || '_ \|___|(_-</ _` |\ V // -_)|___|(_-</ -_)| |/ -_)/ _||  _|| |/ _ \| ' \  _ (_-<| ' \ 
# /_\_\\__||_||_|| .__/     /__/\__,_| \_/ \___|     /__/\___||_|\___|\__| \__||_|\___/|_||_|(_)/__/|_||_|
#                |_|                                                                                      
#
# Save Selected Text Script
# XFCE4: Applications > Settings > Keyboard
# Attach this script to a custom keyboard shortcut to be able to save selected text from anywhere

xclip -o > "/home/anonymous/.logs/clips/$(date +'%Y-%m-%d_%H-%M-%S')_$(xclip -o | cat -s | perl -pe 's/\r?\n/_/' | perl -pe 's/\ /_/g' | sed 's/    /_/g' | sed 's/__/_/g' | sed -e 's/^M//' | tr -s -c [:alnum:][:blank:] _ | cut -c1-50).txt"
bash -c 'notify-send "Save Selected Text - Success!"'

ベストアンサー1

私はそうします:

  • w3mインストール
  • w3m -dump siteurl > 出力.txt

スクリプトを作成して履歴を表示したり、URLをクロールしたり、URLからテキストを変換したりできます。また、変換されたサイトへの参照でテキストファイル名を解決し、重複生成を避けるために処理を無視します。

おすすめ記事