Analisando URLs específicos do arquivo HTML local

Question

Você diz que precisa fazer isso "no Bash", mas parece querer dizer "em um script" e não "usando sintaxe pura do Bash" (há uma diferença). Presumo que você queira o significado "em um script".

Se você salvou todos os links em linhas separadas em um documento, poderá selecionar todos os links do domínio, http://www.example.com/por exemplo

grep "^http://www\.example\.com/" filewithlinks.txt

ou todos os links que terminam .oggcom

grep "\.ogg$" filewithlinks.txt

(A barra invertida precedendo os pontos é para escapar do .sinal " ", que de outra forma significa "qualquer caractere". " \." significa um ponto literal. Sem escapar, você também corresponderá aos links que terminam com, por exemplo, "logg".)

Você também poderia fazer a correspondência de linha diretamente no awk comando, mas seria mais complicado mudar de vez em quando, acredito. A maneira mais fácil é salvar a lista completa de links em um arquivo como você faz e depois pesquisar o arquivo, por exemplo, grepcomo acima. Assim, você também não precisará baixar e analisar o documento novamente se quiser alterar o padrão de correspondência.

Answer 1