特定の順序に従う単語を見つける方法

Question 1

#!/bin/sh
pttrn="^$(printf '%s' "$1" | sed -e 's/\(.\)/\1*/g' -e 's/\*/\\+/' -e 's/\*$/\\+/')"'$'
grep "$pttrn" /usr/share/dict/words

最初の引数から各文字の後にを挿入することでパターンが取得されます*。次に、最初のが*に変更され\+、最後のもに変更されます*。さらに、^と$が追加されます。サンプル入力では、次のパターンが生成されます。

^q\+w*e*r*t*y*u*y*t*r*e*s*d*f*t*y*u*i*o*k*n\+$

このパターンはの正しいパターンですgrep。qは先頭に少なくとも 1 回出現する必要があり、n末尾に少なくとも 1 回出現する必要があります。中間の各文字は 0 回以上出現する場合があり、順序は維持されます。

.このスクリプトは愚かなものであることに注意してください。、[などを入力する]と、仕様を超えた正規表現が返されます。適切な入力を行うか、スクリプトを拡張して検証してください。

例:

$ ./script1.sh qwertyuytresdftyuiokn
queen
question
$ ./script1.sh te
tee
$ ./script1.sh superuser
seer
serer
spur
super
supper
surer
$

Answer

#!/bin/sh
pttrn="^$(printf '%s' "$1" | sed -e 's/\(.\)/\1*/g' -e 's/\*/\\+/' -e 's/\*$/\\+/')"'$'
grep "$pttrn" /usr/share/dict/words

最初の引数から各文字の後にを挿入することでパターンが取得されます*。次に、最初のが*に変更され\+、最後のもに変更されます*。さらに、^と$が追加されます。サンプル入力では、次のパターンが生成されます。

^q\+w*e*r*t*y*u*y*t*r*e*s*d*f*t*y*u*i*o*k*n\+$

このパターンはの正しいパターンですgrep。qは先頭に少なくとも 1 回出現する必要があり、n末尾に少なくとも 1 回出現する必要があります。中間の各文字は 0 回以上出現する場合があり、順序は維持されます。

.このスクリプトは愚かなものであることに注意してください。、[などを入力する]と、仕様を超えた正規表現が返されます。適切な入力を行うか、スクリプトを拡張して検証してください。

例:

$ ./script1.sh qwertyuytresdftyuiokn
queen
question
$ ./script1.sh te
tee
$ ./script1.sh superuser
seer
serer
spur
super
supper
surer
$

Question 2

これにアプローチする方法は1つあります

まず、単語リストをフィルタリングして、文字の羅列と同じ文字で始まり、終わる単語だけを抽出します。たとえば、文字の羅列が位置パラメータとして渡された場合$1（最近のbashシェルを想定）、

grep -x "${1:0:1}.*${1:(-1):1}" /usr/share/dict/words

次に、これらの単語をそれぞれ正規表現に分解します。これを行う「良い」方法は思いつきませんが、GNU sedを使用すると、たとえば次のようにすることができます。

$ sed -E 's/(.)\1*/+.*\1/2g' <<< "queen"
q+.*u+.*e+.*n

次に、生成された各パターンに対して、この混乱をテストします。

すべてを一緒に入れて：

$ cat script1 
#!/bin/bash

wordlist=/usr/share/dict/words

while IFS= read -r word; do 
  grep -qEx "$(sed -E 's/(.)\1*/+.*\1/2g' <<< "$word")" <<< "$1" && printf '%s\n' "$word"
done < <(grep -x "${1:0:1}.*${1:(-1):1}" "$wordlist")

それから

$ ./script1 qwertyuytresdftyuiokn
queen
question

Answer