Recibí archivos de Word de un tipo, los escribí en ruso y los convertí a HTML.
Estos archivos contienen algunos caracteres de espacio en blanco extraños, por ejemplo:
Esto parece un cero pequeño (cambié el modo para mostrar caracteres especiales). En el modo oculto es sólo espacio.
El problema es que estos caracteres se ven feos al convertir un archivo a HTML.
Necesito eliminarlos. Pero si los busco, no puedo distinguirlos del uso del espacio (parecen un punto), así que escaneo manualmente todos los archivos para encontrarlos y eliminarlos.
Entonces, ¿cómo puedo encontrar y eliminar estos símbolos especiales?
Respuesta1
Ese símbolo se llama espacio de no separación (NBSP) y está en Unicode U+00A0
(que, como usted señaló correctamente, es diferente de un espacio normal, que es Unicode U+0020
).
El espacio sin separación se utiliza cuando desea que haya espacios en blanco entre dos palabras, pero no desea que Word (o cualquier otro editor de texto que las admita) coloque un salto de línea o un ajuste de línea allí. Por ejemplo, son útiles si quieres escribir la frase "Esta computadora es compatible con Microsoft Windows". sin salto de línea entre "Microsoft" y "Windows".
En cuanto a su problema al verlos en su documento de Word, es muy fácil de solucionar. Todo lo que necesita hacer es copiar y pegar un ejemplo de un NBSP en la parte de búsqueda de Buscar y reemplazar, y luego escribir un espacio normal en la parte de reemplazo. Esto debería solucionar su problema.
Si tiene curiosidad, puede encontrar más información sobre NBSP.en Wikipedia. Sin embargo, es útil saber para sus propósitos que, si bien HTML trata cualquier número de espacios regulares consecutivos como un espacio, maneja NBSP de manera especial (es posible que lo haya visto representado en su salida HTML como
). Esto es para que los usuarios puedan tener un control un poco más detallado sobre el espaciado en situaciones en las que CSS no es adecuado (o si simplemente quieres un truco rápido y sucio :)). Por lo tanto, es posible que los NBSP resulten útiles en HTML con el tiempo; sin embargo, definitivamente saturan su fuente HTML y son molestos cuando no son necesarios.
Quizás también le interese saber cómo insertar NBSP en Word usted mismo, sin tener que copiar y pegar desde Wikipedia todo el tiempo. Puede insertarlos desde el cuadro de diálogo Insertar símbolo (pestaña Insertar > Símbolo > pestaña Caracteres especiales > Espacio no separable). También puedes usar el atajo Ctrl+ Shift+ Space. En el cuadro de diálogo Buscar y reemplazar, también puede insertarlos haciendo clic en More >>
, luego en el Special
menú desplegable y luego en Nonbreaking space
.
Respuesta2
Si tiene una búsqueda de palabras para espacios comunes, también encontrará espacios que no se separen. Por lo tanto, puede convertir todos los espacios que no se separan en espacios regulares simplemente colocando un espacio en los campos "Buscar qué:" y "Reemplazar con:".