大容量ファイルを追加/追加する簡単な方法[閉じる]

Question

いくつかのアイデア：
1. - 各行で繰り返しカットを呼び出すのではなく、読み取りを活用します。
切り取る変数のリストは次の' 'とおりです。

projectName 1
filepath 2
numbers 3
lang 9
cloneID 10
cloneSubID 11
minToken 12
stride 13
similarity 14

これは次のことを読んで直接行うことができます。

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;

生産ラインは長いが処理時間は短い。変数aは、未使用の値のスペースを埋めるために存在します。

2.- ':'で割る変数番号を再処理するには、次のようにすることができます（あなたの質問にはbashタグが付けられています）。

IFS=':' read -r a linestart length <<<"$numbers"

これにより、コードは次のように単純化されます。

while read -r projectName filepath numbers a a a a a lang cloneID cloneSubID minToken stride similarity;
do
    IFS=':' read -r a linestart length <<<"$numbers"

    currentLine=$linestart
    endLine=$((linestart + length))

    while [ $currentLine -lt $endLine ]; do
        echo "$projectName, $filepath, $lang, $linestart, $currentLine, $cloneID, $cloneSubID, $minToken, $stride, $similarity"
        currentLine=$((currentLine + 1))
    done
done < $filename >>$outputfile

3.- 2番目のスクリプトでは、sub1および/またはsub2変数が何であるかについての説明はありません。

4. - 一般的に言えば、スクリプトを一連の小さなスクリプトに分割できる場合は、各スクリプトの時間を測定して時間がかかる領域を見つけることができます。

5. - そして他の答えが示すように、ファイル（およびすべての中間結果）をメモリパーティションに配置すると、最初のファイルをより速く読み取ることができます。後でスクリプトを実行すると、メモリ内キャッシュから読み取られ、改善が隠されます。このガイド役に立ちます。

Answer 1