行内の一致するURLを検索し、ドメイン名に短縮します

行内の一致するURLを検索し、ドメイン名に短縮します

ログ ファイル用のスクリプトを書いているのですが、出力の特定のフィールドだけが表示されます。最後に必要なのは、URL を短くして、「.com」、「.edu」、「.org」などにヒットしたときに行を停止することです。grep でこれを行う方法はありますか? 他のコマンドを検討する必要がありますか?

出力例は次のとおりです。

student1234 "GET https://www.noname.com:443/login"
student4567 "GET http:// www.noip.edu:80/start/noname"
student8901 "GET http:// www.testing.org:80/search/change"

必要なものは次のとおりです:

student1234 "GET https://www.noname.com
student4567 "GET http:// www.noip.edu
student8901 "GET http:// www.testing.org

答え1

選択肢がたくさんあるので、好きなものを選んでください。

使用方法grep:

grep -o '^[^:]\+:[^:]\+' file.txt

使用cut

cut -d: -f1-2 file.txt

使用awk

awk -F: '{ print $1$2 }' file.txt

使用sed

sed 's/^\([^:]\+:[^:]\+\).*/\1/' file.txt

シェルの使用:

while IFS=: read -r i j k; do echo "$i$j"; done <file.txt

使用perl

perl -pe 's/^([^:]+:[^:]+).*/$1/' file.txt

例:

$ grep -o '^[^:]\+:[^:]\+' file.txt
student1234 "GET https://www.noname.com
student4567 "GET http:// www.noip.edu
student8901 "GET http:// www.testing.org

$ cut -d: -f1-2 file.txt                                                
student1234 "GET https://www.noname.com
student4567 "GET http:// www.noip.edu
student8901 "GET http:// www.testing.org

$ awk -F: '{ print $1$2 }' file.txt                 
student1234 "GET https//www.noname.com
student4567 "GET http// www.noip.edu
student8901 "GET http// www.testing.org

$ sed 's/^\([^:]\+:[^:]\+\).*/\1/' file.txt            
student1234 "GET https://www.noname.com
student4567 "GET http:// www.noip.edu
student8901 "GET http:// www.testing.org

$ while IFS=: read -r i j k; do echo "$i$j"; done <file.txt
student1234 "GET https//www.noname.com
student4567 "GET http// www.noip.edu
student8901 "GET http// www.testing.org

$ perl -pe 's/^([^:]+:[^:]+).*/$1/' file.txt
student1234 "GET https://www.noname.com
student4567 "GET http:// www.noip.edu
student8901 "GET http:// www.testing.org

関連情報