大容量ファイルから生成された複数の分割ファイルの中央値を計算する方法

大容量ファイルから生成された複数の分割ファイルの中央値を計算する方法

私のマウスデータセット(ファイル名=テスト)の中央値を計算したいです。データセットはかなり大きいので、次のコマンドを使用してデータセットを複数のファイル(n = 5)に分割しました。

 split -l$((`wc -l < test`/5)) test test.split -da 4

この手順を完了すると、test.split0000、test.split0001、test.split0002、test.split0003、test.split0004という5つのファイルが作成されました。

次のスクリプトを使用して中央値を計算します。

#!/usr/bin/R

data <- read.table("Input_file", row.names=1, header=T)

M <- apply(data, 1, median) 

write.table(M, "Final_median_mousegene", quote=FALSE, sep="\t", row.names=TRUE)

q()

しかし、今では複数のファイルがあるので、分割されたすべてのファイルで一緒に動作するスクリプトを実行したいと思います。

ありがとう

ベストアンサー1

「中央値は、数値セットの中点、中心点、または中間点です。数値セットを低い順から高い順に注文する場合、中央値は真ん中の数字です。場所で発生します。」

したがって、Rを使用しないでください。大容量ファイルを並べ替えると、中央値が中央値になります。

おすすめ記事