CSVファイルの日付形式をMM / DD / YYYY HH:MM:SS午前/午後からYYYY-MM-DD HH:MM:SSに変更します。

CSVファイルの日付形式をMM / DD / YYYY HH:MM:SS午前/午後からYYYY-MM-DD HH:MM:SSに変更します。

Google BigQueryにデータをアップロードできるように、ベンダーから受け取ったcsvファイルの日付形式を非表示にします。 Google Cloud Consoleの仮想マシンを使用しています。

データは次のとおりです。

Name ,Phone ,SalesDate ,Venue ,NoOfUnits ,ModifiedDatae

Victor ,5555555 ,12/6/2013 10:26:32 AM , Colosseum ,1 ,12/8/2013 1:05:45 PM

次の形式で作成しようとしています。

Name ,Phone ,SalesDate ,Venue ,NoOfUnits ,ModifiedDatae

Victor ,5555555 ,2013-12-6 10:26:32 ,Colosseum,1 ,2013-12-8 13:05:45

sedやawkが使えることを知っています。

ベストアンサー1

私はあなたがしたいことをするPythonスクリプトとBashスクリプトを書いています。

Pythonソリューション

以下は、質問で指定されているように、すべての時間フィールドをある形式から別の形式に変換するPythonスクリプトです。

#!/usr/bin/env python3
# -*- coding: ascii -*-
"""reformat_time.py

Change date format from:

    MM/DD/YYYY HH:MM:SS am/pm

to:

    YYYY-MM-DD HH:MM:SS

in a CSV file
"""

import csv
from datetime import date
from datetime import datetime
import sys

# Open the file (taken as a command-line argument)
with open(sys.argv[1], 'r') as csvfile:

    # Parse the CSV data
    csvreader = csv.reader(csvfile, delimiter=',', quotechar='"')

    # Iterate over the rows
    for row in csvreader:

        # Iterate over the columns of each row
        for index, col in enumerate(row):

            # Try to parse and convert each column
            try:
                _datetime = datetime.strptime(col, "%m/%d/%Y %H:%M:%S %p")
                newcol = _datetime.strftime("%Y-%m-%d %H:%M:%S")

            # If parsing fails, leave the column unchanged
            except ValueError:
                newcol = col

            # Update the column value
            row[index] = newcol

        # Output the updated row
        print(','.join(row))

CSVファイルが呼び出され、data.csv次の行(投稿から取得)が含まれているとします。

Victor,5555555,12/6/2013 10:26:32 AM,Colosseum,1,12/8/2013 1:05:45 PM

その後、次のようにスクリプトを実行できます。

python reformat_time.py data.csv

これにより、次のような出力が生成されます。

Victor,5555555,2013-12-06 10:26:32,Colosseum,1,2013-12-08 01:05:45

カンクンソリューション

date以下は(ほぼ)同じ効果を持つGNUユーティリティを使用するBashスクリプトです。

#!/bin/bash
# reformat_time.sh

# Loop over the lines of the file
while read -r line; do

    # Extract the field values for each row
    Name="$(echo ${line} | cut -d, -f1)";
    Phone="$(echo ${line} | cut -d, -f2)";
    SalesDate="$(echo ${line} | cut -d, -f3)";
    Venue="$(echo ${line} | cut -d, -f4)";
    NoOfUnits="$(echo ${line} | cut -d, -f5)";
    ModifiedDate="$(echo ${line} | cut -d, -f6)";

    # Convert the time-fields from the old format to the new format
    NewSalesDate="$(date -d "${SalesDate}" "+%Y-%m-%d %H:%M:%S")";
    NewModifiedDate="$(date -d "${ModifiedDate}" "+%Y-%m-%d %H:%M:%S")";

    # Output the updated row
    echo "${Name},${Phone},${NewSalesDate},${Venue},${NoOfUnits},${NewModifiedDate}";

done < "$1"

次のように実行できます。

bash reformat_time.sh data.csv

次の出力が生成されます。

Victor ,5555555 ,2013-12-06 10:26:32, Colosseum ,1 ,2013-12-08 13:05:45

Bashスクリプトははるかに脆弱です。エラー処理は行われず、3番目と6番目のフィールドにのみ影響します。また、上記のPythonスクリプトは、そうでないフィールド区切り文字の周りのスペースを保持します。

おすすめ記事