使用linux透過計數器將最常見的單字寫入文件

使用linux透過計數器將最常見的單字寫入文件

我想將文字中至少出現 X 次的單字寫入檔案。例如,對於:

a
b
a
c
b

X = 2 我會得到:

a
b

答案1

這完成了基礎知識,儘管在大型單字清單中它會相當慢:-

set Count
sort < WordList | uniq | while read w; \
    do [ $(grep -c "^$w$" WordList) -ge $1 ] && echo $w; done

更快的答案(感謝卡米爾·馬喬羅夫斯基):-

set Count
sort < WordList | uniq -c | while read c w; do [ $c -ge $1 ] && echo $w; done

這假設:-

  • 您將設定自己的FileList條目Count
  • 這些字在 中每行一個WordList
  • 大小寫很重要(例如Thethe不同)。
  • 這是命令列條目:在腳本中,set Count將被省略並作為參數傳遞。

這應該可以幫助您入門,儘管您幾乎肯定需要根據您的特定需求進行修改。

相關內容