(Python) 巨大な (>10GB) ファイル内の行数をできるだけ早くカウントする [重複] 質問する

Question

イグナシオの答え正しいですが、32 ビットプロセスの場合は失敗する可能性があります。

しかし、ファイルをブロック単位で読み取り、\n各ブロック内の文字数をカウントすると便利な場合があります。

def blocks(files, size=65536):
    while True:
        b = files.read(size)
        if not b: break
        yield b

with open("file", "r") as f:
    print sum(bl.count("\n") for bl in blocks(f))

あなたの仕事をします。

ファイルをバイナリとして開かないことに注意してください。そのため、\r\nはに変換され\n、カウントがより信頼性が高くなります。

Python 3 では、より堅牢にするために、あらゆる種類の文字を含むファイルを読み取るために次の操作を行います。

def blocks(files, size=65536):
    while True:
        b = files.read(size)
        if not b: break
        yield b

with open("file", "r",encoding="utf-8",errors='ignore') as f:
    print (sum(bl.count("\n") for bl in blocks(f)))

Answer 1

イグナシオの答え正しいですが、32 ビットプロセスの場合は失敗する可能性があります。

しかし、ファイルをブロック単位で読み取り、\n各ブロック内の文字数をカウントすると便利な場合があります。

def blocks(files, size=65536):
    while True:
        b = files.read(size)
        if not b: break
        yield b

with open("file", "r") as f:
    print sum(bl.count("\n") for bl in blocks(f))

あなたの仕事をします。

ファイルをバイナリとして開かないことに注意してください。そのため、\r\nはに変換され\n、カウントがより信頼性が高くなります。

Python 3 では、より堅牢にするために、あらゆる種類の文字を含むファイルを読み取るために次の操作を行います。

def blocks(files, size=65536):
    while True:
        b = files.read(size)
        if not b: break
        yield b

with open("file", "r",encoding="utf-8",errors='ignore') as f:
    print (sum(bl.count("\n") for bl in blocks(f)))

(Python) 巨大な (>10GB) ファイル内の行数をできるだけ早くカウントする [重複] 質問する

ベストアンサー1

おすすめ記事