Pandas read_csv dtypeはすべての列を読み取りますが、いくつかは文字列として読み取ります質問する

Question

Pandas 1.5.0以降では、これを行う簡単な方法があります。引数にdefaultdict通常のではなくを使用すると、辞書に明示的にリストされていない列は、その型としてデフォルトを使用します。例：dictdtype

from collections import defaultdict
types = defaultdict(str, A="int", B="float")
df = pd.read_csv("/path/to/file.csv", dtype=types, keep_default_na=False)

(私はこれをテストしていませんが、それでも必要だと思いますkeep_default_na=False)

Pandas の古いバージョンの場合:

次のように、csv 全体を文字列として読み取り、その後で必要な列を他の型に変換できます。

df = pd.read_csv('/path/to/file.csv', dtype=str, keep_default_na=False)
# example df; yours will be from pd.read_csv() above
df = pd.DataFrame({'A': ['1', '3', '5'], 'B': ['2', '4', '6'], 'C': ['x', 'y', 'z']})
types_dict = {'A': int, 'B': float}
for col, col_type in types_dict.items():
    df[col] = df[col].astype(col_type)

keep_default_na=False列の一部が空の文字列である場合や、NApandasがデフォルトでNA型に変換するようなものである場合は、 /floatの混合データ型になる必要がある。strfloat

別の方法として、ファイルを読み込むときにすべての列に適切な型を指定し、後で変更したくない場合は、列名のみ（行なし）を読み込み、それらを使用してどの列が文字列であるかを入力します。

col_names = pd.read_csv('file.csv', nrows=0).columns
types_dict = {'A': int, 'B': float}
types_dict.update({col: str for col in col_names if col not in types_dict})
pd.read_csv('file.csv', dtype=types_dict)

Answer 1