如何使用curl和grep指令抓取網站的頭部部分？

Question 1

這比你想要做的要複雜一些。

首先，您的命令存在一些語法問題。這curl www.hackthissite.org: grep "<head> > ~/data/public/myfirstname\ mylastname/head.txt應該是：

curl www.hackthissite.org | grep "<head>" > ~/data/public/myfirstname\ mylastname/head.txt

但即使它不會做你想要的事情，因為你只是 grep 頭部開始標籤，而不是它和結束標籤之間的內容。

我想出了這個：

curl www.hackthissite.org > TEMPORARYFILE.txt; grep -A $(($(grep -n "</head>" TEMPORARYFILE.txt | cut -d: -f1) - $(grep -n "<head>" TEMPORARYFILE.txt | cut -d: -f1))) "<head>" TEMPORARYFILE.txt > ~/data/public/myfirstname\ mylastname/head.txt; rm TEMPORARYFILE.txt

所以，按部分來說：

grep -n "</head>" TEMPORARYFILE.txt | cut -d: -f1

這將會取得結束標記所在的行號。這同樣適用於grep -n "<head>" TEMPORARYFILE.txt | cut -d: -f1，但對於開始標記。

然後我們有$(($(grep -n "</head>" TEMPORARYFILE.txt | cut -d: -f1) - $(grep -n "<head>" TEMPORARYFILE.txt | cut -d: -f1)))，它應該計算開始標籤和結束標籤之間有多少行。

-A它與選項一起使用grep，它使我們能夠控制要列印的匹配項後的行數。因此它將搜尋起始頭標籤並列印它和結束標籤之間的所有行。

Answer