
Preciso de uma lista abrangente de palavras em tcheco. Por abrangente, quero dizer uma lista (uma palavra por linha) que contém pelo menos mais de 70 mil palavras. Existe uma maneira de adicionar tcheco a /usr/share/dict? Não consigo encontrar nenhum recurso no instalador de pacotes do Ubuntu (outros idiomas são abordados, mas não o tcheco) e o Google não foi útil!
Responder1
Dicionário tcheco para myspell (myspell-cs) e dicionário tcheco para GNU Aspell (aspell-cs) pode ser instalado a partir dos repositórios padrão em todas as versões atualmente suportadas do Ubuntu. Para instalar um ou outro pacote de dicionário tcheco, execute um sudo apt install myspell-cs
ousudo apt install aspell-cs
Há uma lista de 166.566 palavras em tcheco em:https://raw.githubusercontent.com/titoBouzout/Dictionaries/master/Czech.dic. Esta lista contém apenas palavras e não inclui as definições das palavras da lista.
Responder2
Eu também precisava usar palavras específicas em todo o dicionário tcheco e usei aspell
3,1 milhões de palavras tchecas.
$apt install aspell aspell-cs
$aspell -d cs dump master | aspell -l cs expand | wc -l
3141344
$aspell -d cs dump master | aspell -l cs expand | egrep ".{30,}" | wc -l
110
Isso mostra a contagem total de palavras com mais de 30 caracteres. Você pode brincar com diferentes padrões grep para encontrar palavras que faltam em palavras cruzadas :-)
Fonte: https://superuser.com/questions/137957/how-to-convert-aspell-dictionary-to-simple-list-of-words