Wie erstelle ich ein Wörterbuch mit Wörtern aus vorgegebenen Dateien?

Question 1

Johnny, ich denke, was Sie tun möchten, lässt sich problemlos in einem Bash-Skript erledigen. Aber Sie sollten sich mit Umleitungen, Eingabedateien usw. befassen.sollte Sie hoffentlich zum Laufen bringen. |Zum Erhalten von Wörtern oder Mustern ...

Answer

Johnny, ich denke, was Sie tun möchten, lässt sich problemlos in einem Bash-Skript erledigen. Aber Sie sollten sich mit Umleitungen, Eingabedateien usw. befassen.sollte Sie hoffentlich zum Laufen bringen. |Zum Erhalten von Wörtern oder Mustern ...

Question 2

Hängt stark vom Inhalt des Verzeichnisses ab, aber ... dies sollte zumindest ein sehr guter Anfang sein, wenn es sich um reine Textdateien im betreffenden Verzeichnis handelt.

cd
find $directory_name -type f -exec grep -o -E '\w+' {} \; | sort -u -f > out
tr '[:upper:]' '[:lower:]' < out > dictionary.txt
rm out

Über die Schalter man $commandkann ich mehr sagen.

Zahlen entfernen:sed 's/[0-9]*//g' dictionary.txt > a_different_file

Leere Zeilen entfernen:sed '/^$/d' dictionary.txt > some_other_file

Answer

Hängt stark vom Inhalt des Verzeichnisses ab, aber ... dies sollte zumindest ein sehr guter Anfang sein, wenn es sich um reine Textdateien im betreffenden Verzeichnis handelt.

cd
find $directory_name -type f -exec grep -o -E '\w+' {} \; | sort -u -f > out
tr '[:upper:]' '[:lower:]' < out > dictionary.txt
rm out

Über die Schalter man $commandkann ich mehr sagen.

Zahlen entfernen:sed 's/[0-9]*//g' dictionary.txt > a_different_file

Leere Zeilen entfernen:sed '/^$/d' dictionary.txt > some_other_file

Question 3

Sie können dies mit awk tun

 awk 'BEGIN {RS=" "}; /^[A-Za-z]*$/ {print tolower ($0)}' ./* | sed 's_[.].*$__g' | sort -u

„print tolower“ konvertiert einfach alles in Kleinbuchstaben (damit sort -u funktioniert).

Der sed entfernt nachstehende Punkte. Abhängig von Ihren Eingabedateien müssen Sie möglicherweise andere Symbole verwalten.

Answer

Sie können dies mit awk tun

 awk 'BEGIN {RS=" "}; /^[A-Za-z]*$/ {print tolower ($0)}' ./* | sed 's_[.].*$__g' | sort -u

„print tolower“ konvertiert einfach alles in Kleinbuchstaben (damit sort -u funktioniert).

Der sed entfernt nachstehende Punkte. Abhängig von Ihren Eingabedateien müssen Sie möglicherweise andere Symbole verwalten.

Wie erstelle ich ein Wörterbuch mit Wörtern aus vorgegebenen Dateien?

Antwort1

Antwort2

Antwort3

verwandte Informationen