ファイル内で最も頻繁に使用される n 個の単語を検索する

Question 1

これは、「N 個の最も一般的なもの」を見つける最も一般的な方法ですが、が欠落しておりsort、不必要なが生成されますcat。

tr -c '[:alnum:]' '[\n*]' < test.txt | sort | uniq -ci | sort -nr | head  -10

sortの前にを入れないと、uniq -ci おそらく誤った単一単語が多数生成されます。は、 uniq行の連続のみが一意であり、全体的な一意性は保証されません。

「ストップワード」というトリックを使うといいかもしれません。英語のテキスト (申し訳ありませんが、ここでは北米の単一言語です) を見ている場合、「of」、「and」、「the」などの単語がほぼ常に上位 2 位または 3 位を占めます。おそらく、これらを削除したほうがよいでしょう。GNU Groff ディストリビューションeignには、ストップワードのかなり適切なリストを含むという名前のファイルがあります。私の Arch ディストリビューションにはがありますが、古い Unix ではまたは/usr/share/groff/current/eignも見られたと思います。/usr/share/dict/eign/usr/dict/eign

ストップワードは次のように使用できます。

tr -c '[:alnum:]' '[\n*]' < test.txt |
fgrep -v -w -f -i /usr/share/groff/current/eign |
sort | uniq -ci | sort -nr | head  -10

私の推測では、ほとんどの人間の言語では、意味のある単語の頻度カウントから同様の「ストップワード」を削除する必要があると思いますが、他の言語のストップワードリストをどこで入手できるかはわかりません。

フラグを-wオンにするとfgrep、単語全体の一致が有効になります。これにより、「a」や「i」などの短い終止符だけを含む単語の誤検出を回避できます。フラグをオンにすると、単語の比較時に大文字と小文字が無視され-iますuniq。fgrep

Answer

これは、「N 個の最も一般的なもの」を見つける最も一般的な方法ですが、が欠落しておりsort、不必要なが生成されますcat。

tr -c '[:alnum:]' '[\n*]' < test.txt | sort | uniq -ci | sort -nr | head  -10

sortの前にを入れないと、uniq -ci おそらく誤った単一単語が多数生成されます。は、 uniq行の連続のみが一意であり、全体的な一意性は保証されません。

「ストップワード」というトリックを使うといいかもしれません。英語のテキスト (申し訳ありませんが、ここでは北米の単一言語です) を見ている場合、「of」、「and」、「the」などの単語がほぼ常に上位 2 位または 3 位を占めます。おそらく、これらを削除したほうがよいでしょう。GNU Groff ディストリビューションeignには、ストップワードのかなり適切なリストを含むという名前のファイルがあります。私の Arch ディストリビューションにはがありますが、古い Unix ではまたは/usr/share/groff/current/eignも見られたと思います。/usr/share/dict/eign/usr/dict/eign

ストップワードは次のように使用できます。

tr -c '[:alnum:]' '[\n*]' < test.txt |
fgrep -v -w -f -i /usr/share/groff/current/eign |
sort | uniq -ci | sort -nr | head  -10

私の推測では、ほとんどの人間の言語では、意味のある単語の頻度カウントから同様の「ストップワード」を削除する必要があると思いますが、他の言語のストップワードリストをどこで入手できるかはわかりません。

フラグを-wオンにするとfgrep、単語全体の一致が有効になります。これにより、「a」や「i」などの短い終止符だけを含む単語の誤検出を回避できます。フラグをオンにすると、単語の比較時に大文字と小文字が無視され-iますuniq。fgrep

Question 2

これは utf-8 でより適切に動作します:

$ sed -e 's/\s/\n/g' < test.txt | sort | uniq -c | sort -nr | head  -10

Answer

これは utf-8 でより適切に動作します:

$ sed -e 's/\s/\n/g' < test.txt | sort | uniq -c | sort -nr | head  -10

Question 3

AWKを使ってみましょう！

この関数は、指定されたファイル内で出現する各単語の頻度を降順でリストします。

function wordfrequency() {
  awk '
     BEGIN { FS="[^a-zA-Z]+" } {
         for (i=1; i<=NF; i++) {
             word = tolower($i)
             words[word]++
         }
     }
     END {
         for (w in words)
              printf("%3d %s\n", words[w], w)
     } ' | sort -rn
}

次のようにファイル上で呼び出すことができます:

$ cat your_file.txt | wordfrequency

上位10単語は次のとおりです。

$ cat your_file.txt | wordfrequency | head -10

ソース：AWK ワードルビー

Answer

AWKを使ってみましょう！

この関数は、指定されたファイル内で出現する各単語の頻度を降順でリストします。

function wordfrequency() {
  awk '
     BEGIN { FS="[^a-zA-Z]+" } {
         for (i=1; i<=NF; i++) {
             word = tolower($i)
             words[word]++
         }
     }
     END {
         for (w in words)
              printf("%3d %s\n", words[w], w)
     } ' | sort -rn
}

次のようにファイル上で呼び出すことができます:

$ cat your_file.txt | wordfrequency

上位10単語は次のとおりです。

$ cat your_file.txt | wordfrequency | head -10

ソース：AWK ワードルビー

Question 4

Haskellを使ってみましょう！

これは言語戦争になりつつあるのではないですか?

import Data.List
import Data.Ord

main = interact $ (=<<) (\x -> show (length x) ++ " - " ++ head x ++ "\n")
                . sortBy (flip $ comparing length)
                . group . sort
                . words

使用法：

cat input | wordfreq

あるいは:

cat input | wordfreq | head -10

Answer

Haskellを使ってみましょう！

これは言語戦争になりつつあるのではないですか?

import Data.List
import Data.Ord

main = interact $ (=<<) (\x -> show (length x) ++ " - " ++ head x ++ "\n")
                . sortBy (flip $ comparing length)
                . group . sort
                . words

使用法：

cat input | wordfreq

あるいは:

cat input | wordfreq | head -10

ファイル内で最も頻繁に使用される n 個の単語を検索する

答え1

答え2

答え3

AWKを使ってみましょう！

答え4

Haskellを使ってみましょう！

関連情報