次のスペースまでのテキストをgrepするにはどうすればいいですか?

次のスペースまでのテキストをgrepするにはどうすればいいですか?
7/04/27 10:50:17 INFO Master: Driver submitted org.apache.spark.deploy.worker.DriverWrapper
17/04/27 10:50:17 INFO Master: Launching driver driver-20170427105017-0000 on worker worker-20170427103840-192.168.5.242-7078
17/04/27 10:50:22 INFO Master: 192.168.5.5:53156 got disassociated, removing it.
17/04/27 10:50:22 INFO Master: 192.168.5.5:37668 got disassociated, removing it.
17/04/27 10:50:22 INFO Master: 192.168.5.5:53154 got disassociated, removing it.
17/04/27 10:55:27 INFO Master: Registering app ETL DataPipeline App
17/04/27 10:55:27 INFO Master: Registered app ETL DataPipeline App with ID app-20170427105527-0000
17/04/27 10:55:27 INFO Master: Launching executor app-20170427105527-0000/0 on worker worker-20170427103842-192.168.5.175-7078
17/04/27 10:55:27 INFO Master: Launching executor app-20170427105527-0000/1 on worker worker-20170427103838-192.168.5.37-7078
17/04/27 11:08:25 INFO Master: Asked to kill driver driver-20170427105017-0000
17/04/27 11:08:25 INFO Master: Kill request for driver-20170427105017-0000 submitted
17/04/27 11:08:26 INFO Master: Received unregister request from application app-20170427105527-0000

driver-20170427105017-0000 とそれに対応する 192.168.5.242 を取得する方法、同様に app-20170427105527-0000/0 とそれに対応する 192.168.5.175 を grep する方法。

答え1

sed取得するために使用全て driverexecutor「起動」に関連するメッセージ:

$ sed -n -E 's/^.*Launching (driver|executor) ([^ ]*).*worker-[0-9]*-([^-]*).*$/\2 \3/p' file.in
driver-20170427105017-0000 192.168.5.242
app-20170427105527-0000/0 192.168.5.175
app-20170427105527-0000/1 192.168.5.37
  • [^ ]*スペースを除く任意の数の任意の文字に一致します。
  • \2および は\3、それぞれ 2 番目と 3 番目の括弧に一致するものへの後方参照です。2 番目の括弧には および が含まれ、または[^ ]*の後のテキストと一致し、3 番目の括弧には および が含まれ、IP アドレス (アドレスを終了する まで) と一致します。Launching driverLaunching executor[^-]*-
  • ^は正規表現を行の先頭と末尾に固定し、 は$置換が行われた場合その結果を「印刷」するように指示します。s/^...$/.../ppsed

あるいは、正規表現のマジックが少ないため、より堅牢な可能性がある方法として、以下を使用しますawk

$ awk '/Launching/ { split($NF, a, "-"); print $7, a[3] }' file.in

関連情報