Obtendo uma lista de palavras de um dicionário GNU aspell

Obtendo uma lista de palavras de um dicionário GNU aspell

Baixei o pacote aspell para suporte ao dicionário do idioma bengali. No tarball, consegui isolar o arquivo bn.wl, que é simplesmente uma lista de cerca de 100.000 palavras, uma em cada linha.

O problema é que a codificação é aparentemente is13194-bn, e qualquer editor de texto com o qual eu abro o arquivo mostra lixo (uma palavra lixo por linha). Provavelmente está esperando utf8 ou algo assim.

Como posso converter este arquivo em formato legível? Tentei usar o iconv, mas aparentemente ele não consegue reconhecer a codificação.

Responder1

Use o próprio aspell para fornecer a lista de palavras em um formato legível:

aspell -l bn dump master

A opção -l tem como alvo um dicionário específico; se estiver ausente, o dicionário padrão será escolhido.

informação relacionada