¿Por qué mi Perl no funciona bien con Unicode?

Question 1

El problema que estás describiendo es el comportamiento estándar en los sistemas que probé. Iy Oafecta stdin y stdout, por lo que esto debería funcionar:

→ cat data | perl -CIO -pe 's/.*(..)$/$1/'
ρε
小红

Mientras que esto podría no:

→ perl -CIO -pe 's/.*(..)$/$1/' data
Îµ
º¢

Haydos opciones más paraperl -Cque producen el comportamiento deseado.

i     8   UTF-8 is the default PerlIO layer for input streams
o    16   UTF-8 is the default PerlIO layer for output streams

Lo que básicamente significa que para Perl, use un formulario de apertura de archivo:

open(F, "<:utf8", "data");

o puedes usar perl -CSDcual es una abreviatura deperl -CIOEio

S     7   I + O + E
D    24   i + o

Entonces obtienes

→ perl -CSD -pe 's/.*(..)$/$1/' data
ρε
小红

Si la PERLIOvariable de entorno está configurada e incluye, :utf8este comportamiento también estaría habilitado.

Parece que el comportamiento predeterminado perltampoco se puede modificar en el momento de la configuración/compilación (comentario de Cuonglm a continuación). Arch ciertamente noestablecer cualquier cosa.Dudo que los paquetes de Debian Perl modifiquen el comportamiento predeterminado.

Answer

El problema que estás describiendo es el comportamiento estándar en los sistemas que probé. Iy Oafecta stdin y stdout, por lo que esto debería funcionar:

→ cat data | perl -CIO -pe 's/.*(..)$/$1/'
ρε
小红

Mientras que esto podría no:

→ perl -CIO -pe 's/.*(..)$/$1/' data
Îµ
º¢

Haydos opciones más paraperl -Cque producen el comportamiento deseado.

i     8   UTF-8 is the default PerlIO layer for input streams
o    16   UTF-8 is the default PerlIO layer for output streams

Lo que básicamente significa que para Perl, use un formulario de apertura de archivo:

open(F, "<:utf8", "data");

o puedes usar perl -CSDcual es una abreviatura deperl -CIOEio

S     7   I + O + E
D    24   i + o

Entonces obtienes

→ perl -CSD -pe 's/.*(..)$/$1/' data
ρε
小红

Si la PERLIOvariable de entorno está configurada e incluye, :utf8este comportamiento también estaría habilitado.

Parece que el comportamiento predeterminado perltampoco se puede modificar en el momento de la configuración/compilación (comentario de Cuonglm a continuación). Arch ciertamente noestablecer cualquier cosa.Dudo que los paquetes de Debian Perl modifiquen el comportamiento predeterminado.

Question 2

Eso no es un problema del sistema sino del perlmismo.

-CIOsolo configure la codificación UTF-8 en STDINy STDOUT, dos de los tres identificadores de archivos predefinidos ( también perltiene -Efor ).STDERR

Cuando usas:

perl -CIO -pe 's/.*(..)$/$1/' file

perlUtilice el operador de diamante <>para procesar el archivo. Desde cuando el operador de diamantes <>usóabierto (con forma de dos argumentos)para crear un nuevo identificador de archivo para cada archivo desde la línea de comando, estos identificadores de archivo no se verán afectados por la codificación UTF-8 que configuró STDINy STDOUT.

Entonces, puedes pasar el contenido del archivo a perltravés de su entrada estándar y funcionará:

perl -CIO -pe 's/.*(..)$/$1/' <file

Para otras opciones ver@La respuesta de Matt.

En caso de que desee perlutilizar su configuración regional para la capa de codificación predeterminada, puede utilizar:

perl -Mopen=:locale -pe 's/.*(..)$/$1/' file

Cuando utilice PERLIOpara configurar la capa de codificación, debeusar :encoding(uf8)en lugar de:utf8.

El uso :utf8omite el paso de codificación y puede causar problemas al leer secuencias de bytes UTF-8 no válidas y provocar problemas de seguridad.

Answer