2つの文字列が最初に表示される間のファイル部分をすばやく抽出します。

Question

OPとのチャット中に、いくつかの議論では、1行がWebクエリのJSONであることがわかりました。jq . < input_fileまたは、同じツールを使用してこのファイルをきれいに印刷するpython -mjson.tool input_fileと、ファイルは既存の1行ずつ処理に適しています。

さらなる議論により、これはフラットファイルを生成するための書誌照会であることが明らかになりました。jqOPは、次のプログラム（私の最初のプログラム）が十分に速いと思います。

#!/bin/bash                                                                                                                           

jq -r  < "$1" '.response.docs[] |                                                                                          
    ("    Title: "+.title[]),                                                                                                          
    ("   Authors: "+(.author|join(""))),                                                                                               
    ("    Bibcode: "+.bibcode),                                                                                                        
    ("   AltBibcode: "+(.alternate_bibcode//[] | join(" : "))),                                                                        
    ("  "+(.abstract//"NOABSTRACT")),                                                                                                  
    ""' | fmt | sed 's/^    \?//'

いくつかの微妙な点があります。私たちが望むのは、長い行ではなく要約を包み込み、出力を経由して送信されることですfmt。このプログラムには次の属性があります。別のインデントで始まる行いいえ一緒に組み合わせて、「タイトル：」などのテキストに4/3/4/3/2間隔パターンを追加します。その後、fmtは実際に2つのスペースに要約をインデントしてラップします。次に、sedを使用して他のヘッダー行から3〜4個のスペースを削除します。完璧ではなく、長い著者のリストも圧縮できます。より良いsedプログラムは、作成者を行に再接続し、空のAltBibcodeエントリを削除するなどの操作を実行できます。

出力形式は、awk 1行スクリプトを介して後処理するように慎重に設計されています。

awk -vRS='' -vORS=$'\n\n' !/NOABSTRACT/'

要約せずにアイテムを削除します。

Answer 1

OPとのチャット中に、いくつかの議論では、1行がWebクエリのJSONであることがわかりました。jq . < input_fileまたは、同じツールを使用してこのファイルをきれいに印刷するpython -mjson.tool input_fileと、ファイルは既存の1行ずつ処理に適しています。

さらなる議論により、これはフラットファイルを生成するための書誌照会であることが明らかになりました。jqOPは、次のプログラム（私の最初のプログラム）が十分に速いと思います。

#!/bin/bash                                                                                                                           

jq -r  < "$1" '.response.docs[] |                                                                                          
    ("    Title: "+.title[]),                                                                                                          
    ("   Authors: "+(.author|join(""))),                                                                                               
    ("    Bibcode: "+.bibcode),                                                                                                        
    ("   AltBibcode: "+(.alternate_bibcode//[] | join(" : "))),                                                                        
    ("  "+(.abstract//"NOABSTRACT")),                                                                                                  
    ""' | fmt | sed 's/^    \?//'

いくつかの微妙な点があります。私たちが望むのは、長い行ではなく要約を包み込み、出力を経由して送信されることですfmt。このプログラムには次の属性があります。別のインデントで始まる行いいえ一緒に組み合わせて、「タイトル：」などのテキストに4/3/4/3/2間隔パターンを追加します。その後、fmtは実際に2つのスペースに要約をインデントしてラップします。次に、sedを使用して他のヘッダー行から3〜4個のスペースを削除します。完璧ではなく、長い著者のリストも圧縮できます。より良いsedプログラムは、作成者を行に再接続し、空のAltBibcodeエントリを削除するなどの操作を実行できます。

出力形式は、awk 1行スクリプトを介して後処理するように慎重に設計されています。

awk -vRS='' -vORS=$'\n\n' !/NOABSTRACT/'

要約せずにアイテムを削除します。

2つの文字列が最初に表示される間のファイル部分をすばやく抽出します。

ベストアンサー1

おすすめ記事