Finde die n häufigsten Wörter in einer Datei

Question 1

Das ist so ziemlich die gängigste Methode, um die „N häufigsten Dinge“ zu finden, außer dass ein fehlt sortund Sie ein unnötiges haben cat:

tr -c '[:alnum:]' '[\n*]' < test.txt | sort | uniq -ci | sort -nr | head  -10

sortWenn Sie vor dem kein einfügen, uniq -ci erhalten Sie wahrscheinlich viele falsche Singleton-Wörter. uniqführt nur eindeutige Zeilenfolgen aus, nicht die allgemeine Eindeutigkeit.

Sie können einen Trick anwenden, „Stoppwörter“. Wenn Sie sich einen englischen Text ansehen (Entschuldigung, wir sind einsprachig in Nordamerika), belegen Wörter wie „of“, „and“ und „the“ fast immer die ersten zwei oder drei Plätze. Sie möchten sie wahrscheinlich eliminieren. Die GNU Groff-Distribution enthält eine Datei mit dem Namen, eigndie eine ziemlich gute Liste von Stoppwörtern enthält. Meine Arch-Distribution hat /usr/share/groff/current/eign, aber ich glaube, ich habe in alten Unix-Versionen auch /usr/share/dict/eignoder gesehen./usr/dict/eign

Sie können Stoppwörter wie diese verwenden:

tr -c '[:alnum:]' '[\n*]' < test.txt |
fgrep -v -w -f -i /usr/share/groff/current/eign |
sort | uniq -ci | sort -nr | head  -10

Ich vermute, dass in den meisten menschlichen Sprachen ähnliche „Stoppwörter“ aus aussagekräftigen Worthäufigkeitszählungen entfernt werden müssen, weiß aber nicht, wo ich Listen mit Stoppwörtern für andere Sprachen finden kann.

Das -wFlag fgrepaktiviert die Übereinstimmung ganzer Wörter. Dadurch werden falsche Ergebnisse bei Wörtern vermieden, die nur kurze Stoppwörter enthalten, wie „a“ oder „i“. Das -iFlag aktiviert uniqund fgrepignoriert die Groß-/Kleinschreibung beim Vergleichen von Wörtern.

Answer

Das ist so ziemlich die gängigste Methode, um die „N häufigsten Dinge“ zu finden, außer dass ein fehlt sortund Sie ein unnötiges haben cat:

tr -c '[:alnum:]' '[\n*]' < test.txt | sort | uniq -ci | sort -nr | head  -10

sortWenn Sie vor dem kein einfügen, uniq -ci erhalten Sie wahrscheinlich viele falsche Singleton-Wörter. uniqführt nur eindeutige Zeilenfolgen aus, nicht die allgemeine Eindeutigkeit.

Sie können einen Trick anwenden, „Stoppwörter“. Wenn Sie sich einen englischen Text ansehen (Entschuldigung, wir sind einsprachig in Nordamerika), belegen Wörter wie „of“, „and“ und „the“ fast immer die ersten zwei oder drei Plätze. Sie möchten sie wahrscheinlich eliminieren. Die GNU Groff-Distribution enthält eine Datei mit dem Namen, eigndie eine ziemlich gute Liste von Stoppwörtern enthält. Meine Arch-Distribution hat /usr/share/groff/current/eign, aber ich glaube, ich habe in alten Unix-Versionen auch /usr/share/dict/eignoder gesehen./usr/dict/eign

Sie können Stoppwörter wie diese verwenden:

tr -c '[:alnum:]' '[\n*]' < test.txt |
fgrep -v -w -f -i /usr/share/groff/current/eign |
sort | uniq -ci | sort -nr | head  -10

Ich vermute, dass in den meisten menschlichen Sprachen ähnliche „Stoppwörter“ aus aussagekräftigen Worthäufigkeitszählungen entfernt werden müssen, weiß aber nicht, wo ich Listen mit Stoppwörtern für andere Sprachen finden kann.

Das -wFlag fgrepaktiviert die Übereinstimmung ganzer Wörter. Dadurch werden falsche Ergebnisse bei Wörtern vermieden, die nur kurze Stoppwörter enthalten, wie „a“ oder „i“. Das -iFlag aktiviert uniqund fgrepignoriert die Groß-/Kleinschreibung beim Vergleichen von Wörtern.

Question 2

Das funktioniert besser mit UTF-8:

$ sed -e 's/\s/\n/g' < test.txt | sort | uniq -c | sort -nr | head  -10

Answer

Das funktioniert besser mit UTF-8:

$ sed -e 's/\s/\n/g' < test.txt | sort | uniq -c | sort -nr | head  -10

Question 3

Lasst uns AWK nutzen!

Diese Funktion listet die Häufigkeit jedes Worts in der bereitgestellten Datei in absteigender Reihenfolge auf:

function wordfrequency() {
  awk '
     BEGIN { FS="[^a-zA-Z]+" } {
         for (i=1; i<=NF; i++) {
             word = tolower($i)
             words[word]++
         }
     }
     END {
         for (w in words)
              printf("%3d %s\n", words[w], w)
     } ' | sort -rn
}

Sie können es für Ihre Datei folgendermaßen aufrufen:

$ cat your_file.txt | wordfrequency

und für die Top 10 Wörter:

$ cat your_file.txt | wordfrequency | head -10

Quelle:AWK-Ward Ruby

Answer

Lasst uns AWK nutzen!

Diese Funktion listet die Häufigkeit jedes Worts in der bereitgestellten Datei in absteigender Reihenfolge auf:

function wordfrequency() {
  awk '
     BEGIN { FS="[^a-zA-Z]+" } {
         for (i=1; i<=NF; i++) {
             word = tolower($i)
             words[word]++
         }
     }
     END {
         for (w in words)
              printf("%3d %s\n", words[w], w)
     } ' | sort -rn
}

Sie können es für Ihre Datei folgendermaßen aufrufen:

$ cat your_file.txt | wordfrequency

und für die Top 10 Wörter:

$ cat your_file.txt | wordfrequency | head -10

Quelle:AWK-Ward Ruby

Question 4

Lasst uns Haskell verwenden!

Das entwickelt sich zu einem Sprachenkrieg, nicht wahr?

import Data.List
import Data.Ord

main = interact $ (=<<) (\x -> show (length x) ++ " - " ++ head x ++ "\n")
                . sortBy (flip $ comparing length)
                . group . sort
                . words

Verwendung:

cat input | wordfreq

Alternative:

cat input | wordfreq | head -10

Answer

Lasst uns Haskell verwenden!

Das entwickelt sich zu einem Sprachenkrieg, nicht wahr?

import Data.List
import Data.Ord

main = interact $ (=<<) (\x -> show (length x) ++ " - " ++ head x ++ "\n")
                . sortBy (flip $ comparing length)
                . group . sort
                . words

Verwendung:

cat input | wordfreq

Alternative:

cat input | wordfreq | head -10

Finde die n häufigsten Wörter in einer Datei

Antwort1

Antwort2

Antwort3

Lasst uns AWK nutzen!

Antwort4

Lasst uns Haskell verwenden!

verwandte Informationen