Descargué el paquete aspell para compatibilidad con el diccionario del idioma bengalí. Del tarball, pude aislar el archivo bn.wl, que es simplemente una lista de unas 100.000 palabras, una en cada línea.
El problema es que la codificación aparentemente es is13194-bn, y cualquier editor de texto con el que abro el archivo muestra basura (una palabra basura por línea). Probablemente esté esperando utf8 o algo así.
¿Cómo puedo convertir este archivo a un formato legible? Intenté usar iconv pero aparentemente no puede reconocer la codificación.
Respuesta1
Utilice el propio aspell para proporcionar la lista de palabras en un formato legible:
aspell -l bn dump master
El modificador -l apunta a un diccionario específico; si está ausente, se elige el diccionario predeterminado.