Recebi arquivos do Word de um cara, escritos em russo e os converti para HTML.
Esses arquivos contêm alguns caracteres estranhos de espaço em branco, por exemplo:
Parece um zero pequeno (mudei o modo para mostrar caracteres especiais). No modo oculto é apenas espaço.
Problema que esses caracteres ficam feios ao converter o arquivo para HTML.
Eu preciso removê-los. Mas se eu pesquisá-los, não consigo distingui-los do espaço de uso (parece um ponto), então verifico manualmente todos os arquivos para localizá-los e removê-los.
Então, como posso encontrar e remover esses símbolos especiais?
Responder1
Esse símbolo é chamado de espaço inseparável (NBSP) e está em Unicode U+00A0
(que, como você apontou corretamente, é diferente de um espaço normal, que é Unicode U+0020
).
O espaço ininterrupto é usado quando você deseja que haja espaços em branco entre duas palavras, mas não deseja que o Word (ou qualquer outro editor de texto que as suporte) coloque uma quebra de linha ou quebra de linha ali. Por exemplo, eles são úteis se você quiser escrever a frase “Este computador oferece suporte ao Microsoft Windows”. sem quebra de linha entre "Microsoft" e "Windows".
Quanto ao problema de vê-los em seu documento do Word, é muito fácil de corrigir. Tudo o que você precisa fazer é copiar e colar o exemplo de um NBSP na parte de pesquisa de Localizar e Substituir e, em seguida, digitar um espaço regular na parte de substituição. Isso deve esclarecer seu problema.
Mais algumas informações sobre o NBSP, se você estiver curioso, podem ser encontradasna Wikipédia. No entanto, é útil saber para seus propósitos que, embora o HTML trate qualquer número de espaços regulares consecutivos como um espaço, ele lida especialmente com o NBSP (você pode tê-lo visto representado em sua saída HTML como
). Isso ocorre para que os usuários possam ter um controle um pouco mais refinado sobre o espaçamento em situações em que CSS não é adequado (ou se você quiser apenas um hack rápido e sujo :)). Portanto, você pode descobrir que os NBSPs eventualmente serão úteis em HTML - no entanto, eles definitivamente sobrecarregam sua fonte HTML e são irritantes quando não são necessários.
Você também pode querer saber como inserir NBSPs no Word - sem ter que copiar e colar da Wikipedia o tempo todo. Você pode inseri-los na caixa de diálogo Inserir símbolo (guia Inserir > Símbolo > guia Caracteres especiais > Espaço inseparável). Você também pode usar o atalho Ctrl+ Shift+ Space. Na caixa de diálogo Localizar e Substituir, você também pode inseri-los clicando em More >>
, no Special
menu suspenso e em Nonbreaking space
.
Responder2
Se você tiver a pesquisa do Word para espaços comuns, ela também encontrará espaços inseparáveis. Assim, você pode converter todos os espaços não separáveis em espaços regulares simplesmente colocando um espaço nos campos "Localizar:" e "Substituir por:".