Простой скрипт, анализирующий текст, что здесь не так?

Question 1

Какмусиокак уже было сказано, проблема заключается в HTML-кодировке некоторых специальных символов.

Perl может преобразовать их надежно и легко:

curl 'https://www.grc.com/passwords.htm' | \
    grep 'ASCII characters:' \
    perl -MHTML::Entities -ne 's/.*2>|<.*//g; print decode_entities($_)'

Answer

Какмусиокак уже было сказано, проблема заключается в HTML-кодировке некоторых специальных символов.

Perl может преобразовать их надежно и легко:

curl 'https://www.grc.com/passwords.htm' | \
    grep 'ASCII characters:' \
    perl -MHTML::Entities -ne 's/.*2>|<.*//g; print decode_entities($_)'

Question 2

Это может быть связано с кодировкой HTML, где, например, один <из 63 символов фактически представлен как сущность <в исходном коде, что делает вашу строку немного длиннее.

Answer

Это может быть связано с кодировкой HTML, где, например, один <из 63 символов фактически представлен как сущность <в исходном коде, что делает вашу строку немного длиннее.

Question 3

Вот над чем вам следует задуматься: результирующая строка вашего скрипта часто может содержать определенные символы, которые не экранируются должным образом в операциях sed.

Например, подозрительными могут быть следующие символы: квадратные скобки, одинарные и двойные кавычки, фигурные скобки, восклицательные знаки, а также прямые и обратные косые черты и звездочки.

Я бы попробовал удалить один из этих символов из возвращаемой строки в серии тестов, сравнивая результаты, чтобы увидеть, увеличит ли удаление одного из любого количества этих символов количество символов до 63.

Answer

Вот над чем вам следует задуматься: результирующая строка вашего скрипта часто может содержать определенные символы, которые не экранируются должным образом в операциях sed.

Например, подозрительными могут быть следующие символы: квадратные скобки, одинарные и двойные кавычки, фигурные скобки, восклицательные знаки, а также прямые и обратные косые черты и звездочки.

Я бы попробовал удалить один из этих символов из возвращаемой строки в серии тестов, сравнивая результаты, чтобы увидеть, увеличит ли удаление одного из любого количества этих символов количество символов до 63.

Question 4

На основании вашего комментария к mousio, вашу цепочку grep/sed... можно сократить до одной команды:

Perl обычно устанавливается по умолчанию

perl -ne 'next unless /63 random printable ASCII characters:/; s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/&/g; s/&lt;/</g; s/&gt;/>/g; print; exit'

Не все sed понимают этот синтаксис

sed -n '/63 random printable ASCII characters:/{s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/\&/g; s/&lt;/</g; s/&gt;/>/g; p;q}'

Answer

На основании вашего комментария к mousio, вашу цепочку grep/sed... можно сократить до одной команды:

Perl обычно устанавливается по умолчанию

perl -ne 'next unless /63 random printable ASCII characters:/; s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/&/g; s/&lt;/</g; s/&gt;/>/g; print; exit'

Не все sed понимают этот синтаксис

sed -n '/63 random printable ASCII characters:/{s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/\&/g; s/&lt;/</g; s/&gt;/>/g; p;q}'

Простой скрипт, анализирующий текст, что здесь не так?

решение1

решение2

решение3

решение4

Связанный контент