
チェコ語の単語の包括的なリストが必要です。包括的とは、少なくとも 70,000 語以上を網羅したリスト (1 行に 1 語) を意味します。チェコ語を /usr/share/dict に追加する方法はありますか? Ubuntu パッケージ インストーラーに関するリソースが見つかりません (他の言語はカバーされていますが、チェコ語はカバーされていません)。Google も役に立ちませんでした。
答え1
myspell のチェコ語辞書 (マイスペルCS) および GNU Aspell 用チェコ語辞書 (aspell-cs) は、現在サポートされているすべてのバージョンのUbuntuのデフォルトのリポジトリからインストールできます。いずれかのチェコ語辞書パッケージをインストールするには、sudo apt install myspell-cs
またはsudo apt install aspell-cs
チェコ語の単語166,566語のリストが以下にあります。https://raw.githubusercontent.com/titoBouzout/Dictionaries/master/Czech.dicこのリストには単語のみが含まれており、リスト内の単語の定義は含まれていません。
答え2
チェコ語辞書全体で特定の単語を grep する必要があり、aspell
310 万のチェコ語を含むものを使用しました。
$apt install aspell aspell-cs
$aspell -d cs dump master | aspell -l cs expand | wc -l
3141344
$aspell -d cs dump master | aspell -l cs expand | egrep ".{30,}" | wc -l
110
これは 30 文字以上の単語の総数を表示します。クロスワードで抜けている単語を見つけるために、さまざまな grep パターンを試すことができます :-)
ソース: https://superuser.com/questions/137957/how-to-convert-aspell-dictionary-to-simple-list-of-words