PythonでWebプロキシを書く方法質問する

Question

最近、似たような Web アプリケーションを作成しました。これは私が作成した方法であることに注意してください。皆さんもこのように作成すべきだと言っているのではありません。私が遭遇した落とし穴をいくつか紹介します。

属性値を相対値から絶対値に変更する

ページを取得してクライアントに表示するだけではありません。多くの場合、エラーなしで Web ページをプロキシすることはできません。

私が指摘したような特定のサイトがまったく機能しないのはなぜですか?

多くの Web ページでは、Web ページを適切にフォーマットして表示するために、リソースへの相対パスに依存しています。たとえば、次の画像タグ:

<img src="/header.png" />

クライアントは次のようなリクエストを実行します:

http://proxyurl/header.png

失敗します。ソース' 値は次のように変換されます:

http://anothersite.com/header.png.

したがって、HTML文書を次のように解析する必要があります。美しいスープ、ループオーバーすべてのタグ次のような属性を確認します。

'src', 'lowsrc', 'href'

そして価値観を変えるしたがって、タグは次のようになります。

<img src="http://anothersite.com/header.png" />

この方法は、画像タグだけでなく、他のタグにも適用されます。1つの、脚本、リンク、李そしてフレーム変更する必要があるものもいくつかあります。

HTML の悪ふざけ

前述の方法でかなりは達成できるはずですが、まだ完了ではありません。

両方

<style type="text/css" media="all">@import "/stylesheet.css?version=120215094129002";</style>

そして

<div style="position:absolute;right:8px;background-image:url('/Portals/_default/Skins/BE/images/top_img.gif');height:200px;width:427px;background-repeat:no-repeat;background-position:right top;" >

使用してアクセスしたり変更したりすることが難しいコードの例です美しいスープ。

最初の例では、相対URIへのCSS @Importがあります。2番目の例は、「url()' メソッドをインライン CSS ステートメントから使用します。

私の場合、これらの値を手動で変更するためにひどいコードを書くことになりました。これには正規表現を使用する必要があるかもしれませんが、よくわかりません。

リダイレクト

Python-Requests または Urllib2 を使用すると、リダイレクトを自動的に簡単に追跡できます。新しい (ベース) uri を保存することを忘れないでください。これは、「属性値を相対から絶対に変更する」操作に必要になります。

また、「ハードコードされた」リダイレクトも処理する必要があります。次のようなもの:

<meta http-equiv="refresh" content="0;url=http://new-website.com/">

次のように変更する必要があります:

<meta http-equiv="refresh" content="0;url=http://proxyurl/http://new-website.com/">

ベースタグ

のベースタグドキュメント内のすべての相対 URL のベース URL/ターゲットを指定します。おそらく値を変更する必要があるでしょう。

ついにやった？

いいえ。一部のウェブサイトは、画面にコンテンツを表示するためにJavaScriptに大きく依存しています。これらのサイトはプロキシするのが最も困難です。次のようなものを使用することを検討しています。ファントムJSまたはおばけWeb ページを取得して評価し、その結果をクライアントに提示します。

たぶん私のソースコードあなたを助けることができます。好きなように使うことができます。

Answer 1