encontrar n palabras más frecuentes en un archivo

Question 1

Esa es prácticamente la forma más común de encontrar "N cosas más comunes", excepto que te falta un sorty tienes un gratuito cat:

tr -c '[:alnum:]' '[\n*]' < test.txt | sort | uniq -ci | sort -nr | head  -10

Si no coloca un sortantes, uniq -ci probablemente obtendrá muchas palabras únicas falsas. uniqsolo hace tiradas únicas de líneas, no unicidad general.

Quizás quieras utilizar un truco: "palabras vacías". Si estás mirando texto en inglés (lo siento, aquí es monolingüe norteamericano), palabras como "of", "and", "the" casi siempre ocupan los dos o tres primeros lugares. Probablemente quieras eliminarlos. La distribución GNU Groff tiene un archivo nombrado eignque contiene una lista bastante decente de palabras vacías. Mi distribución Arch tiene /usr/share/groff/current/eign, pero creo que también lo he visto /usr/share/dict/eignen /usr/dict/eignUnixes antiguos.

Puedes utilizar palabras vacías como esta:

tr -c '[:alnum:]' '[\n*]' < test.txt |
fgrep -v -w -f -i /usr/share/groff/current/eign |
sort | uniq -ci | sort -nr | head  -10

Supongo que la mayoría de los idiomas humanos necesitan "palabras vacías" similares eliminadas de los recuentos de frecuencia de palabras significativas, pero no sé dónde sugerir que se obtengan listas de palabras vacías de otros idiomas.

La -wbandera activada fgreppermite la coincidencia de palabras completas. Esto evita falsos positivos en palabras que simplemente contienen palabras breves, como "a" o "i". La -ibandera está activada uniqe fgrepignora mayúsculas y minúsculas al comparar palabras.

Answer

Esa es prácticamente la forma más común de encontrar "N cosas más comunes", excepto que te falta un sorty tienes un gratuito cat:

tr -c '[:alnum:]' '[\n*]' < test.txt | sort | uniq -ci | sort -nr | head  -10

Si no coloca un sortantes, uniq -ci probablemente obtendrá muchas palabras únicas falsas. uniqsolo hace tiradas únicas de líneas, no unicidad general.

Quizás quieras utilizar un truco: "palabras vacías". Si estás mirando texto en inglés (lo siento, aquí es monolingüe norteamericano), palabras como "of", "and", "the" casi siempre ocupan los dos o tres primeros lugares. Probablemente quieras eliminarlos. La distribución GNU Groff tiene un archivo nombrado eignque contiene una lista bastante decente de palabras vacías. Mi distribución Arch tiene /usr/share/groff/current/eign, pero creo que también lo he visto /usr/share/dict/eignen /usr/dict/eignUnixes antiguos.

Puedes utilizar palabras vacías como esta:

tr -c '[:alnum:]' '[\n*]' < test.txt |
fgrep -v -w -f -i /usr/share/groff/current/eign |
sort | uniq -ci | sort -nr | head  -10

Supongo que la mayoría de los idiomas humanos necesitan "palabras vacías" similares eliminadas de los recuentos de frecuencia de palabras significativas, pero no sé dónde sugerir que se obtengan listas de palabras vacías de otros idiomas.

La -wbandera activada fgreppermite la coincidencia de palabras completas. Esto evita falsos positivos en palabras que simplemente contienen palabras breves, como "a" o "i". La -ibandera está activada uniqe fgrepignora mayúsculas y minúsculas al comparar palabras.

Question 2

Esto funciona mejor con utf-8:

$ sed -e 's/\s/\n/g' < test.txt | sort | uniq -c | sort -nr | head  -10

Answer

Esto funciona mejor con utf-8:

$ sed -e 's/\s/\n/g' < test.txt | sort | uniq -c | sort -nr | head  -10

Question 3

¡Usemos AWK!

Esta función enumera la frecuencia de cada palabra que aparece en el archivo proporcionado en orden descendente:

function wordfrequency() {
  awk '
     BEGIN { FS="[^a-zA-Z]+" } {
         for (i=1; i<=NF; i++) {
             word = tolower($i)
             words[word]++
         }
     }
     END {
         for (w in words)
              printf("%3d %s\n", words[w], w)
     } ' | sort -rn
}

Puedes llamarlo en tu archivo de esta manera:

$ cat your_file.txt | wordfrequency

y para las 10 palabras principales:

$ cat your_file.txt | wordfrequency | head -10

Fuente:Ruby pupilo de AWK

Answer

¡Usemos AWK!

Esta función enumera la frecuencia de cada palabra que aparece en el archivo proporcionado en orden descendente:

function wordfrequency() {
  awk '
     BEGIN { FS="[^a-zA-Z]+" } {
         for (i=1; i<=NF; i++) {
             word = tolower($i)
             words[word]++
         }
     }
     END {
         for (w in words)
              printf("%3d %s\n", words[w], w)
     } ' | sort -rn
}

Puedes llamarlo en tu archivo de esta manera:

$ cat your_file.txt | wordfrequency

y para las 10 palabras principales:

$ cat your_file.txt | wordfrequency | head -10

Fuente:Ruby pupilo de AWK

Question 4

¡Usemos Haskell!

Esto se está convirtiendo en una guerra de idiomas, ¿no?

import Data.List
import Data.Ord

main = interact $ (=<<) (\x -> show (length x) ++ " - " ++ head x ++ "\n")
                . sortBy (flip $ comparing length)
                . group . sort
                . words

Uso:

cat input | wordfreq

Alternativamente:

cat input | wordfreq | head -10

Answer

¡Usemos Haskell!

Esto se está convirtiendo en una guerra de idiomas, ¿no?

import Data.List
import Data.Ord

main = interact $ (=<<) (\x -> show (length x) ++ " - " ++ head x ++ "\n")
                . sortBy (flip $ comparing length)
                . group . sort
                . words

Uso:

cat input | wordfreq

Alternativamente:

cat input | wordfreq | head -10

encontrar n palabras más frecuentes en un archivo

Respuesta1

Respuesta2

Respuesta3

¡Usemos AWK!

Respuesta4

¡Usemos Haskell!

información relacionada