JSONに変換したい大規模なデータテーブルがありますが、jq、mlrなどのツールが不足しているawkテクノロジに頼らずにこれらのタスクを実行できるかどうかはわかりません。
サンプルテーブル:
Balance_sheet for AAPL:
2023-09-30 2022-09-30 2021-09-30 2020-09-30
Treasury Shares Number 0.0 NaN NaN NaN
Ordinary Shares Number 15550061000.0 15943425000.0 16426786000.0 16976763000.0
好ましい出力:
{
"Balance_sheet for AAPL": {
"Treasury Shares Number": {
"2023-09-30": "0.0",
"2022-09-30": "NaN",
"2021-09-30": "NaN",
"2020-09-30": "NaN"
},
"Ordinary Shares Number": {
"2023-09-30": "15550061000.0",
"2022-09-30": "15943425000.0",
"2021-09-30": "16426786000.0",
"2020-09-30": "16976763000.0"
}
}
}
次の形式も機能しますが、それほど理想的ではありません。
{
"Balance_sheet for AAPL": {
"2023-09-30": {
"Treasury Shares Number": "0.0",
"Ordinary Shares Number": "15550061000.0"
},
"2022-09-30": {
"Treasury Shares Number": "NaN",
"Ordinary Shares Number": "15943425000.0"
},
"2021-09-30": {
"Treasury Shares Number": "NaN",
"Ordinary Shares Number": "16426786000.0"
},
"2020-09-30": {
"Treasury Shares Number": "NaN",
"Ordinary Shares Number": "16976763000.0"
}
}
}
これを行う合理的な方法を知っている人はいますか?
ベストアンサー1
私は以下を使用しますperl
:
$ perl -MJSON::PP -ae '
if (/^(.*):$/) {$sheet = $1}
elsif (/^\h+\d/) {$n = (@dates = @F)}
elsif (/^(.*?)((?:\h+)\H+){$n}$/) {
$i = -$n;
$j{$sheet}->{$1} = {map {$_ => $F[$i++]} @dates}
}
END {print JSON::PP->new->pretty->encode(\%j)}' your-file
{
"Balance_sheet for AAPL" : {
"Ordinary Shares Number" : {
"2023-09-30" : "15550061000.0",
"2020-09-30" : "16976763000.0",
"2022-09-30" : "15943425000.0",
"2021-09-30" : "16426786000.0"
},
"Treasury Shares Number" : {
"2020-09-30" : "NaN",
"2023-09-30" : "0.0",
"2021-09-30" : "NaN",
"2022-09-30" : "NaN"
}
}
}
正規表現に基づいて、入力から3種類の行を区別します。
:
現在の「シート」(最上位オブジェクトのキー)を決定する- 1つ以上の水平スペースで
+
始まり\h
、その後に\d
小数点の1桁が続く行、この数字は日付(3番目のレベルのオブジェクトのキー)であり、配列に書き込まれ、@dates
その数字はに書き込まれます$n
。 - 少なくとも
$n
スペースで区切られたフィールドを含む行は、最後のフィールドの前の部分が2番目のレベルオブジェクトのキーを構成し、キーとして使用し、最後のフィールドを値として使用して、そのキーの3番目のレベル$n
オブジェクトを作成します。@dates
$n
- 他のすべて(例入力の空行)は無視されます。
JSONオブジェクトはPerl連想配列を表すため、メンバーの順序はランダムです。各オブジェクトのメンバーがキーに基づいてソートされるcanonical
フラグ()を設定して、一貫した順序を取得できます。JSON::PP->new->pretty->canonical->encode(\%j)
JSONオブジェクトのフィールドの順序がテーブルの順序を反映することが重要な場合(説明を参照)、次のことがperldoc JSON::PP
できます。結ぶさまざまな種類のハッシュのこのような配列は、次のようなものを使用します。
$ perl -MData::Dumper -MTie::Hash::Indexed -MJSON::PP -ae '
BEGIN{tie %j, $m = "Tie::Hash::Indexed"}
if (/^(.*):$/) {tie my %s, $m; $j{$sheet = $1} = \%s}
elsif (/^\h+\d/) {$n = (@dates = @F)}
elsif (/^(.*?)((?:\h+)\H+){$n}$/) {
tie my %s, $m;
$i = -$n;
%s = map {$_ => $F[$i++]} @dates;
$j{$sheet}->{$1} = \%s
}
END {print JSON::PP->new->pretty->encode(\%j)}' your-file
{
"Balance_sheet for AAPL" : {
"Treasury Shares Number" : {
"2023-09-30" : "0.0",
"2022-09-30" : "NaN",
"2021-09-30" : "NaN",
"2020-09-30" : "NaN"
},
"Ordinary Shares Number" : {
"2023-09-30" : "15550061000.0",
"2022-09-30" : "15943425000.0",
"2021-09-30" : "16426786000.0",
"2020-09-30" : "16976763000.0"
}
}
}
Tie::Hash::Indexed
(libtie-hash-indexed-perl
Debianパッケージ)は、順序付けられたハッシュを提供するいくつかのモジュールの1つです。
これが重要な場合は、予想される形式に近い形式のために(for -style Pretty-printing)に:
置き換えてください(4つのスペースのインデントとsの後にスペースがありますが、以前はスペースはありません)。pretty
indent->indent_length(4)->space_after
indent_length(2)
jq