GNU aspell 辞書から単語リストを取得する

GNU aspell 辞書から単語リストを取得する

ベンガル語辞書サポート用の aspell パッケージをダウンロードしました。tarball から、各行に 1 つずつ、約 100,000 語のリストである bn.wl ファイルを分離できました。

問題は、どうやらエンコードが is13194-bn であり、ファイルを開いたテキスト エディターでゴミが表示されることです (1 行に 1 つのゴミ単語)。おそらく、utf8 か何かを想定しているのでしょう。

このファイルを読み取り可能な形式に変換するにはどうすればいいでしょうか? iconv を使用してみましたが、どうやらエンコードを認識できないようです。

答え1

aspell 自体を使用して、読み取り可能な形式で単語​​リストを提供します。

aspell -l bn dump master

-l スイッチは特定の辞書を対象としており、それが存在しない場合はデフォルトの辞書が選択されます。

関連情報