
Eu corri um wget -b
. A partir do log, eu estava tentando obter a lista de arquivos baixados com sucesso, e para isso fiz um grep saved wget-log | awk -F '"' '{print $2}'
mas não funcionou. Uma investigação mais aprofundada me levou a notar que o nome do arquivo está entre aspas duplas esquerda e direita de 3 bytes (0xE2 0x80 0x9D), em vez de aspas duplas regulares (0x22).
Esse é o comportamento normal do wget ou é alguma variável de ambiente da minha parte, algo assim? Posso fazer com que o wget use aspas regulares ou use apenas bytes ASCII padrão em seu log, de alguma forma? Conheço outras formas de contornar isso, substituindo os bytes por sed por exemplo. Estou muito intrigado com isso: passei vários minutos no Google procurando algum comentário sobre isso e não consegui encontrar nada, é como se ninguém tivesse notado isso antes.
Responder1
Parece ser intencional em localidades Unicode. Há um comentário sobre isso emlista de discussão do wget. Os arquivos de tradução de idiomas também contêm traduções de citações, para que você obtenha citações 'adequadas' de acordo com o idioma usado.
Você pode usar aspas regulares usando uma localidade não Unicode.
LC_ALL=C wget ...
ou
LC_CTYPE=C wget ...