LLVM を使用した C/C++ コードのインストルメント質問する

Question

まず、clang と LLVM のどちらを使用するかを決める必要があります。どちらも非常に異なるデータ構造で動作し、それぞれに長所と短所があります。

問題の説明があまり詳しくないので、LLVM で最適化パスを実行することをお勧めします。IR を使用すると、コードのサニタイズ、分析、挿入がはるかに簡単になります。これは、IR が設計されている目的だからです。欠点は、プロジェクトが LLVM に依存することです。これは問題になる場合とならない場合があります。C バックエンドを使用して結果を出力することもできますが、人間が使用することはできません。

Value最適化パスを使用する場合のもう1つの重要な欠点は、元のソースコードのすべてのシンボルも失われることです。クラス（後で詳しく説明します）にメソッドがある場合でもgetName、一度もない意味のある内容が含まれているかどうかは、このファイルに依存します。これは、パスのデバッグに役立つことを目的としており、それ以外の目的には使用できません。

また、コンパイラに関する基本的な知識も必要です。例えば、以下のことを知っておくことは必須です。基本ブロックそして静的単一割り当てフォーム幸いなことに、これらは学習したり理解したりするのがそれほど難しい概念ではありません (Wikipedia の記事で十分でしょう)。

コーディングを始める前に、まずいくつか読む必要があります。そのため、始めるためのリンクをいくつか示します。

アーキテクチャの概要: LLVM のアーキテクチャの簡単な概要。作業内容や LLVM が適切なツールであるかどうかについて、適切なアイデアが得られます。
ドキュメンテーションヘッド: 以下に挙げたすべてのリンクとその他のリンクが見つかります。何か見逃したものがあれば、こちらを参照してください。
LLVM の IR リファレンス: これは、これから操作する LLVM IR の完全な説明です。言語は比較的単純なので、学ぶことはそれほど多くありません。
プログラマーマニュアル: LLVM を使用する際に知っておく必要のある基本的な事項の簡単な概要。
パスの書き方: 変換パスまたは分析パスを記述するために必要なすべての情報。
LLVM パス: LLVM によって提供され、使用できる、また使用すべきすべてのパスの包括的なリスト。これらは、コードを整理し、分析しやすくするのに非常に役立ちます。たとえば、ループを操作する場合、、およびlcssaパスsimplify-loopがindvar役立ちます。
値の継承ツリー: これは Value クラスの doxygen ページです。ここで重要なのは、IR リファレンスページで定義されているすべての命令のドキュメントを取得するためにたどることができる継承ツリーです。コラボレーションダイアグラムと呼ばれる不気味な怪物は無視してください。
型継承ツリー: 上記と同じですが、タイプについては異なります。

一度それをすべて理解すれば、あとは簡単です。メモリアクセスを見つけるには? 命令を検索します store 。 load インストルメントするには? クラスの適切なサブクラスを使用して必要なものを作成し Value 、それをストア命令とロード命令の前または後に挿入するだけです。質問が少し広すぎるため、これ以上お手伝いすることはできません。 （下記訂正参照）

ちなみに、数週間前に似たようなことをしなければなりませんでした。約 2 ～ 3 週間で、LLVM について必要なことはすべて学習し、ループ内のメモリアクセス (など) を見つけるための分析パスを作成し、作成した変換パスでそれらを計測することができました。複雑なアルゴリズムは使用せず (LLVM が提供するものを除く)、すべてが非常に簡単でした。この話の教訓は、LLVM は学習しやすく、使いやすいということです。

修正: 検索して指示するloadだけと言ったのは間違いでしたstore。

および命令loadは、storeポインタを使用してヒープに行われたアクセスのみを許可します。すべてのメモリアクセスを取得するには、スタック上のメモリ位置を表す値も確認する必要があります。値がスタックに書き込まれるか、レジスタに格納されるかは、バックエンドの最適化パスで発生するレジスタ割り当てフェーズで決定されます。つまり、これはプラットフォームに依存しており、依存すべきではありません。

どのような種類のメモリアクセスを探しているのか、どのようなコンテキストで、どのようにインストルメント化しようとしているのかという詳細情報を提供していただけない限り、これ以上のお手伝いはできません。

Answer 1