如何使用給定文件中的單字建立字典？

Question 1

約翰尼，我認為你想做的事情可以輕鬆地在 bash 腳本中完成。但你會想要研究重定向、輸入檔案…；應該能讓你滿懷希望地繼續前進。 |為了獲取單字或模式...

Answer

約翰尼，我認為你想做的事情可以輕鬆地在 bash 腳本中完成。但你會想要研究重定向、輸入檔案…；應該能讓你滿懷希望地繼續前進。 |為了獲取單字或模式...

Question 2

很大程度上取決於目錄的內容，但是......如果我們談論相關目錄中的純文字文件，這至少應該是一個非常好的開始。

cd
find $directory_name -type f -exec grep -o -E '\w+' {} \; | sort -u -f > out
tr '[:upper:]' '[:lower:]' < out > dictionary.txt
rm out

關於開關，man $command可以詳細說明。

刪除數字：sed 's/[0-9]*//g' dictionary.txt > a_different_file

刪除空白行：sed '/^$/d' dictionary.txt > some_other_file

Answer

很大程度上取決於目錄的內容，但是......如果我們談論相關目錄中的純文字文件，這至少應該是一個非常好的開始。

cd
find $directory_name -type f -exec grep -o -E '\w+' {} \; | sort -u -f > out
tr '[:upper:]' '[:lower:]' < out > dictionary.txt
rm out

關於開關，man $command可以詳細說明。

刪除數字：sed 's/[0-9]*//g' dictionary.txt > a_different_file

刪除空白行：sed '/^$/d' dictionary.txt > some_other_file

Question 3

你可以用 awk 來做到這一點

 awk 'BEGIN {RS=" "}; /^[A-Za-z]*$/ {print tolower ($0)}' ./* | sed 's_[.].*$__g' | sort -u

「print tolower」只是轉換為所有小寫（使 sort -u 工作）。

sed 刪除尾隨句點，您可能需要或不需要管理其他符號，具體取決於您的輸入檔。

Answer

你可以用 awk 來做到這一點

 awk 'BEGIN {RS=" "}; /^[A-Za-z]*$/ {print tolower ($0)}' ./* | sed 's_[.].*$__g' | sort -u

「print tolower」只是轉換為所有小寫（使 sort -u 工作）。

sed 刪除尾隨句點，您可能需要或不需要管理其他符號，具體取決於您的輸入檔。

相關內容