Linux でシェル スクリプトを使用して JSON を解析するにはどうすればよいですか?

Linux でシェル スクリプトを使用して JSON を解析するにはどうすればよいですか?

Linux でいくつかのパラメータを抽出する必要がある JSON 出力があります。

これは JSON 出力です:

{
        "OwnerId": "121456789127",
        "ReservationId": "r-48465168",
        "Groups": [],
        "Instances": [
            {
                "Monitoring": {
                    "State": "disabled"
                },
                "PublicDnsName": null,
                "RootDeviceType": "ebs",
                "State": {
                    "Code": 16,
                    "Name": "running"
                },
                "EbsOptimized": false,
                "LaunchTime": "2014-03-19T09:16:56.000Z",
                "PrivateIpAddress": "10.250.171.248",
                "ProductCodes": [
                    {
                        "ProductCodeId": "aacglxeowvn5hy8sznltowyqe",
                        "ProductCodeType": "marketplace"
                    }
                ],
                "VpcId": "vpc-86bab0e4",
                "StateTransitionReason": null,
                "InstanceId": "i-1234576",
                "ImageId": "ami-b7f6c5de",
                "PrivateDnsName": "ip-10-120-134-248.ec2.internal",
                "KeyName": "Test_Virginia",
                "SecurityGroups": [
                    {
                        "GroupName": "Test",
                        "GroupId": "sg-12345b"
                    }
                ],
                "ClientToken": "VYeFw1395220615808",
                "SubnetId": "subnet-12345314",
                "InstanceType": "t1.micro",
                "NetworkInterfaces": [
                    {
                        "Status": "in-use",
                        "SourceDestCheck": true,
                        "VpcId": "vpc-123456e4",
                        "Description": "Primary network interface",
                        "NetworkInterfaceId": "eni-3619f31d",
                        "PrivateIpAddresses": [
                            {
                                "Primary": true,
                                "PrivateIpAddress": "10.120.134.248"
                            }
                        ],
                        "Attachment": {
                            "Status": "attached",
                            "DeviceIndex": 0,
                            "DeleteOnTermination": true,
                            "AttachmentId": "eni-attach-9210dee8",
                            "AttachTime": "2014-03-19T09:16:56.000Z"
                        },
                        "Groups": [
                            {
                                "GroupName": "Test",
                                "GroupId": "sg-123456cb"
                            }
                        ],
                        "SubnetId": "subnet-31236514",
                        "OwnerId": "109030037527",
                        "PrivateIpAddress": "10.120.134.248"
                    }
                ],
                "SourceDestCheck": true,
                "Placement": {
                    "Tenancy": "default",
                    "GroupName": null,
                    "AvailabilityZone": "us-east-1c"
                },
                "Hypervisor": "xen",
                "BlockDeviceMappings": [
                    {
                        "DeviceName": "/dev/sda",
                        "Ebs": {
                            "Status": "attached",
                            "DeleteOnTermination": false,
                            "VolumeId": "vol-37ff097b",
                            "AttachTime": "2014-03-19T09:17:00.000Z"
                        }
                    }
                ],
                "Architecture": "x86_64",
                "KernelId": "aki-88aa75e1",
                "RootDeviceName": "/dev/sda1",
                "VirtualizationType": "paravirtual",
                "Tags": [
                    {
                        "Value": "Server for testing RDS feature in us-east-1c AZ",
                        "Key": "Description"
                    },
                    {
                        "Value": "RDS_Machine (us-east-1c)",
                        "Key": "Name"
                    },
                    {
                        "Value": "1234",
                        "Key": "cost.centre",
                      },
                    {
                        "Value": "Jyoti Bhanot",
                        "Key": "Owner",
                      }
                ],
                "AmiLaunchIndex": 0
            }
        ]
    }

インスタンス ID などの見出し、名前、コスト センター、所有者などのタグ、およびその下に JSON 出力からの特定の値を含むファイルを作成したいと思います。ここで示されている出力は単なる例です。

sedと を使用してそれを実行するにはどうすればよいですかawk?

期待される出力:

 Instance id         Name                           cost centre             Owner
    i-1234576          RDS_Machine (us-east-1c)        1234                   Jyoti

答え1

ほぼすべてのプログラミング言語でパーサーを利用できることは、データ交換形式としての JSON の利点の 1 つです。

JSONパーサーを実装しようとするよりも、JSON解析用に構築されたツールを使用する方がよいでしょう。jqまたは、JSON ライブラリを備えた汎用スクリプト言語。

たとえば、jq を使用すると、次のようにして Instances 配列の最初の項目から ImageID を取得できます。

jq '.Instances[0].ImageId' test.json

あるいは、Ruby の JSON ライブラリを使用して同じ情報を取得するには、次のようにします。

ruby -rjson -e 'j = JSON.parse(File.read("test.json")); puts j["Instances"][0]["ImageId"]'

修正された質問やコメントのすべてに回答することはできませんが、次の内容が開始するには十分であると思います。

STDINから読み取り、例の出力[0]の2行目を出力できるRubyスクリプトがあるとします。そのスクリプトは次のようになります。

#!/usr/bin/env ruby
require 'json'

data = JSON.parse(ARGF.read)
instance_id = data["Instances"][0]["InstanceId"]
name = data["Instances"][0]["Tags"].find {|t| t["Key"] == "Name" }["Value"]
owner = data["Instances"][0]["Tags"].find {|t| t["Key"] == "Owner" }["Value"]
cost_center = data["Instances"][0]["SubnetId"].split("-")[1][0..3]
puts "#{instance_id}\t#{name}\t#{cost_center}\t#{owner}"

このようなスクリプトを使用して、全体の目標を達成するにはどうすればよいでしょうか。次のようなスクリプトがすでにあると仮定します。

  • すべてのインスタンスを一覧表示するコマンド
  • リスト上の任意のインスタンスの上記のJSONを取得し、それをSTDOUに出力するコマンド

1 つの方法は、シェルを使用してこれらのツールを組み合わせることです。

echo -e "Instance id\tName\tcost centre\tOwner"
for instance in $(list-instances); do
    get-json-for-instance $instance | ./ugly-ruby-scriptrb
done

さて、おそらく、その「インスタンス」配列に複数の項目があるすべてのインスタンスに対して 1 つの json blob を提供する単一のコマンドがあるでしょう。その場合、単に最初の項目を使用するのではなく、配列を反復処理するようにスクリプトを少し変更する必要があります。

結局、この問題を解決する方法は、Unix の多くの問題を解決する方法と同じです。問題をより簡単な問題に分解します。より簡単な問題を解決するためのツールを見つけるか作成します。それらのツールをシェルまたは他のオペレーティング システム機能と組み合わせます。

[0] コストセンターがどこから来るのか全く分からないので、私が勝手に作ったものであることに注意してください。

答え2

array1.json次の Python スクリプトを使用してそのデータを解析できます。などのファイル内の配列から JSON データを取得していると仮定しますarray2.json

import json
import sys
from pprint import pprint

jdata = open(sys.argv[1])

data = json.load(jdata)

print "InstanceId", " - ", "Name", " - ", "Owner"
print data["Instances"][0]["InstanceId"], " - " ,data["Instances"][0]["Tags"][1]["Value"], " - " ,data["Instances"][0]["Tags"][2]["Value"] 

jdata.close()

そして、以下を実行します:

$ for x in `ls *.json`; do python parse.py $x; done
InstanceId  -  Name  -  Owner
i-1234576  -  RDS_Machine (us-east-1c)  -  Jyoti Bhanot

あなたのデータにはコストが含まれていなかったので、それを含めませんでした。

コメントでの議論に従って、parse.py スクリプトを更新しました。

import json
import sys
from pprint import pprint

jdata = sys.stdin.read()

data = json.loads(jdata)

print "InstanceId", " - ", "Name", " - ", "Owner"
print data["Instances"][0]["InstanceId"], " - " ,data["Instances"][0]["Tags"][1]["Value"], " - " ,data["Instances"][0]["Tags"][2]["Value"] 

次のコマンドを実行してみてください:

#ec2-describe-instance <instance> | python parse.py

答え3

他の人があなたの質問に対して、JSON を解析する良い方法を示す一般的な回答を提供していますが、私もあなたと同じように、他のパッケージに依存せずに awk や sed などのコア ツールを使用して aws インスタンス ID を抽出する方法を探していました。これを実現するには、awk コマンドに "--output=text" 引数を渡すと、awk で解析可能な文字列が得られます。これを使用すると、次のようなものを使用してインスタンス ID を簡単に取得できます...

aws ec2 run-instances --output text  | awk -F"\t" '$1=="INSTANCES" {print $8}'

答え4

これが上記のAWSユースケースに限定される場合は、CLI API呼び出しに--queryおよび--outputフラグを使用する必要があります。

出力を制御する

関連情報