巨大な.csvファイルの読み取り質問する

Question

すべての行をリストに読み込み、そのリストを処理します。そんなことしないで。

行を生成するときに処理します。最初にデータをフィルタリングする必要がある場合は、ジェネレーター関数を使用します。

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:
                # done when having read a consecutive series of rows 
                return

フィルターテストも簡略化しました。ロジックは同じですが、より簡潔になっています。

条件に一致する行の単一のシーケンスのみを照合するため、次のコードも使用できます。

import csv
from itertools import dropwhile, takewhile

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        # first row, plus any subsequent rows that match, then stop
        # reading altogether
        # Python 2: use `for row in takewhile(...): yield row` instead
        # instead of `yield from takewhile(...)`.
        yield from takewhile(
            lambda r: r[3] == criterion,
            dropwhile(lambda r: r[3] != criterion, datareader))
        return

これで直接ループできるようになりましたgetstuff()。でも同じことを行いますgetdata():

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row

getdata()コード内で直接ループします。

for row in getdata(somefilename, sequence_of_criteria):
    # process row

あなたは今、1行基準ごとに数千行ではなく、メモリに格納されます。

yield関数をジェネレータ関数つまり、ループを開始するまで何も実行されません。

Answer 1