R: 「group by」操作の高速化質問する

Question

通常の R データフレームの代わりに、サブセット化時に元のデータへのポインターを返す不変データフレームを使用することもできます。これにより、処理速度が大幅に向上します。

idf <- idata.frame(myDF)
system.time(aggregateDF <- ddply(idf, c("year", "state", "group1", "group2"),
   function(df) wtd.mean(df$myFact, weights=df$weights)))

#    user  system elapsed 
# 18.032   0.416  19.250

この状況にぴったり合うようにカスタマイズされた plyr 関数を書くとしたら、次のようになります。

system.time({
  ids <- id(myDF[c("year", "state", "group1", "group2")], drop = TRUE)
  data <- as.matrix(myDF[c("myFact", "weights")])
  indices <- plyr:::split_indices(seq_len(nrow(data)), ids, n = attr(ids, "n"))

  fun <- function(rows) {
    weighted.mean(data[rows, 1], data[rows, 2])
  }
  values <- vapply(indices, fun, numeric(1))

  labels <- myDF[match(seq_len(attr(ids, "n")), ids), 
    c("year", "state", "group1", "group2")]
  aggregateDF <- cbind(labels, values)
})

# user  system elapsed 
# 2.04    0.29    2.33

データのコピーを回避し、計算時に各計算に必要なサブセットのみを抽出するため、処理速度が大幅に向上します。データをマトリックス形式に切り替えると、マトリックスのサブセット化はデータフレームのサブセット化よりもはるかに高速であるため、速度がさらに向上します。

Answer 1

通常の R データフレームの代わりに、サブセット化時に元のデータへのポインターを返す不変データフレームを使用することもできます。これにより、処理速度が大幅に向上します。

idf <- idata.frame(myDF)
system.time(aggregateDF <- ddply(idf, c("year", "state", "group1", "group2"),
   function(df) wtd.mean(df$myFact, weights=df$weights)))

#    user  system elapsed 
# 18.032   0.416  19.250

この状況にぴったり合うようにカスタマイズされた plyr 関数を書くとしたら、次のようになります。

system.time({
  ids <- id(myDF[c("year", "state", "group1", "group2")], drop = TRUE)
  data <- as.matrix(myDF[c("myFact", "weights")])
  indices <- plyr:::split_indices(seq_len(nrow(data)), ids, n = attr(ids, "n"))

  fun <- function(rows) {
    weighted.mean(data[rows, 1], data[rows, 2])
  }
  values <- vapply(indices, fun, numeric(1))

  labels <- myDF[match(seq_len(attr(ids, "n")), ids), 
    c("year", "state", "group1", "group2")]
  aggregateDF <- cbind(labels, values)
})

# user  system elapsed 
# 2.04    0.29    2.33

データのコピーを回避し、計算時に各計算に必要なサブセットのみを抽出するため、処理速度が大幅に向上します。データをマトリックス形式に切り替えると、マトリックスのサブセット化はデータフレームのサブセット化よりもはるかに高速であるため、速度がさらに向上します。

R: 「group by」操作の高速化質問する

ベストアンサー1

おすすめ記事