テキストを解析する単純なスクリプトですが、何が間違っているのでしょうか?

Question 1

としてマウスすでに述べたように、問題はいくつかの特殊文字の HTML エンコードにあります。

Perl はこれらを確実かつ簡単に変換できます。

curl 'https://www.grc.com/passwords.htm' | \
    grep 'ASCII characters:' \
    perl -MHTML::Entities -ne 's/.*2>|<.*//g; print decode_entities($_)'

Answer

としてマウスすでに述べたように、問題はいくつかの特殊文字の HTML エンコードにあります。

Perl はこれらを確実かつ簡単に変換できます。

curl 'https://www.grc.com/passwords.htm' | \
    grep 'ASCII characters:' \
    perl -MHTML::Entities -ne 's/.*2>|<.*//g; print decode_entities($_)'

Question 2

これは HTML エンコーディングに関係している可能性があります。たとえば、<63 文字の a は実際にはソース内のエンティティとして表され<、文字列が少し長くなります。

Answer

これは HTML エンコーディングに関係している可能性があります。たとえば、<63 文字の a は実際にはソース内のエンティティとして表され<、文字列が少し長くなります。

Question 3

ここで考慮すべきことがあります。スクリプトの結果の文字列には、sed 操作で適切にエスケープされていない特定の文字が含まれることがよくあります。

たとえば、括弧、一重引用符と二重引用符、中括弧、感嘆符、スラッシュとバックスラッシュ、アスタリスクなどの文字が疑わしい場合があります。

一連のテストで返された文字列からこれらの文字の 1 つを削除し、結果を比較して、これらの文字の任意の数の 1 つを削除するとカウントが 63 になるかどうかを確認します。

Answer

ここで考慮すべきことがあります。スクリプトの結果の文字列には、sed 操作で適切にエスケープされていない特定の文字が含まれることがよくあります。

たとえば、括弧、一重引用符と二重引用符、中括弧、感嘆符、スラッシュとバックスラッシュ、アスタリスクなどの文字が疑わしい場合があります。

一連のテストで返された文字列からこれらの文字の 1 つを削除し、結果を比較して、これらの文字の任意の数の 1 つを削除するとカウントが 63 になるかどうかを確認します。

Question 4

mousio へのコメントに基づいて、grep/sed のチェーンを 1 つのコマンドに減らすことができます。

Perlは通常デフォルトでインストールされます

perl -ne 'next unless /63 random printable ASCII characters:/; s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/&/g; s/&lt;/</g; s/&gt;/>/g; print; exit'

すべてのsedがこの構文を理解するわけではない

sed -n '/63 random printable ASCII characters:/{s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/\&/g; s/&lt;/</g; s/&gt;/>/g; p;q}'

Answer

mousio へのコメントに基づいて、grep/sed のチェーンを 1 つのコマンドに減らすことができます。

Perlは通常デフォルトでインストールされます

perl -ne 'next unless /63 random printable ASCII characters:/; s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/&/g; s/&lt;/</g; s/&gt;/>/g; print; exit'

すべてのsedがこの構文を理解するわけではない

sed -n '/63 random printable ASCII characters:/{s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/\&/g; s/&lt;/</g; s/&gt;/>/g; p;q}'

テキストを解析する単純なスクリプトですが、何が間違っているのでしょうか?

答え1

答え2

答え3

答え4

関連情報