係数は文字よりもdata.tableに保存される方が効率的ですか? 質問する

Question

おそらく、data.table FAQ 2.17 を覚えているでしょう。そこには次の内容が含まれています:

stringsAsFactors は、効率化のため、data.frame ではデフォルトで TRUE ですが、data.table では FALSE です。R にグローバル文字列キャッシュが追加されたため、文字項目は単一のキャッシュされた文字列へのポインターとなり、factor に変換してもパフォーマンス上の利点はなくなりました。

(この部分は、2012 年 7 月の v1.8.2 で FAQ に追加されました。)

因子ではなく文字を使用すると、スタッキング (rbindlist) などのタスクで非常に役立ちます。2c()つの文字ベクトルのは単なる連結ですが、c()2 つの因子列のは 2 つの因子レベルを走査して結合する必要があるため、コーディングが難しく、実行に時間がかかります。

64 ビットマシンでの RAM 消費の違いに気付いたでしょう。因子は、integerレベル内の項目のベクトル検索として保存されます。タイプはinteger、64 ビットプラットフォームでも 32 ビットです。ただし、ポインター (ベクトルcharacter) は 64 ビットマシンでは 64 ビットです。したがって、64 ビットマシンでは、文字列の列は因子列の 2 倍の RAM を使用します。32 ビットでは違いはありません。ただし、通常、このコストは、文字ベクトルで可能なより単純で高速な命令によって相殺されます。[余談: 因子はinteger20 億を超える一意の文字列を含むことができないため、character列にはその制限はありません。]

何をしているかによって異なりますが、操作は data.table で最適化されているためcharacter、これをお勧めします。基本的に、ホップ (レベル) が節約され、グローバルキャッシュへのホップもまったく行わずに、ポインター値を比較するだけで、異なるテーブル内の 2 つの文字列を比較できます。

列のカーディナリティにも依存します。列が 100 万行で、100 万の一意の文字列が含まれているとします。これを因子として保存するには、レベル用の 100 万文字ベクトルと、レベルの要素を指す 100 万整数ベクトルが必要です。これは (4+8)*1e6 バイトです。一方、文字ベクトルにはレベルは必要なく、8*1e6 バイトだけです。どちらの場合も、グローバルキャッシュには 100 万の一意の文字列が同じ方法で保存されるため、いずれにせよそうなることになります。この場合、文字列は因子の場合よりも RAM を少なく使用します。RAM 使用量を計算するために使用されるメモリツールがこれを適切に計算していることを慎重に確認してください。

Answer 1

おそらく、data.table FAQ 2.17 を覚えているでしょう。そこには次の内容が含まれています: