マッチ後にsed echo文字列を実行する

Question 1

出力には、任意の量のランダムなゴミと、興味のある 1 行が含まれます。その行を選択し、ID 以外のすべてを破棄して、結果を出力します。

 sed -n '/profile_images/s/.*profile_images\\\/\([0-9]\+\).*/\1/p'

その行が処理された直後に終了することで、少し効率化できます。

実際、これは元のコードとほぼ同じです。変更されたのは、使用される正規表現だけです。

Answer

出力には、任意の量のランダムなゴミと、興味のある 1 行が含まれます。その行を選択し、ID 以外のすべてを破棄して、結果を出力します。

 sed -n '/profile_images/s/.*profile_images\\\/\([0-9]\+\).*/\1/p'

その行が処理された直後に終了することで、少し効率化できます。

実際、これは元のコードとほぼ同じです。変更されたのは、使用される正規表現だけです。

Question 2

このような、針を探すような作業に直面したとき、私は、可能であれば、それを行指向の問題に変換します。次のような方法でそれができるかもしれません。

$ sed -E 's:[0-9]+:\n&\n:g' filename \
| grep -F -A1 '/pbs.twimg.com\/profile_images\' | tail -1

これにより、任意の数字文字列が単独で 1 行に配置され、文字列が grep され、その後の文字列が出力されます。

これはかなりのハックです。HTML を解析する正しい方法は、HTML パーサーを使用することです。ただし、1 つの文字列だけが必要な制御された入力の場合は、これで十分かもしれません。

もう少しすっきりしたアプローチとしては awk を使うことです。そのようなことを頻繁に扱うのであれば、間違いなく学ぶ価値があります。

Answer

このような、針を探すような作業に直面したとき、私は、可能であれば、それを行指向の問題に変換します。次のような方法でそれができるかもしれません。

$ sed -E 's:[0-9]+:\n&\n:g' filename \
| grep -F -A1 '/pbs.twimg.com\/profile_images\' | tail -1

これにより、任意の数字文字列が単独で 1 行に配置され、文字列が grep され、その後の文字列が出力されます。

これはかなりのハックです。HTML を解析する正しい方法は、HTML パーサーを使用することです。ただし、1 つの文字列だけが必要な制御された入力の場合は、これで十分かもしれません。

もう少しすっきりしたアプローチとしては awk を使うことです。そのようなことを頻繁に扱うのであれば、間違いなく学ぶ価値があります。

関連情報