
У меня дилемма, редактировать файл javascript или нет. Когда я открываю его с помощью gedit, он показывает следующее предупреждение:
Файл, который вы открыли, содержит недопустимые символы. Если вы продолжите редактирование этого файла, вы можете повредить этот документ. Вы также можете выбрать другую кодировку символов и повторить попытку.
Текущая кодировка — UTF-8. Поскольку файл содержит более 100 000 строк кода, есть ли быстрый способ сканирования на предмет недопустимых символов?
решение1
Так как файл имеет кодировку UTF-8, вы можете запуститьisutf8. Дополнительный пакет утилит. Он дает вам и строку, и символ, и смещение для плохих байтов.
Затем используйте xxd, hexdump или подобные для анализа.
К сожалению, останавливается при первом сбое. Но опять же, это зависит от файла. Может быть, там всего один плохой байт ;)
Есть код на C, который делает похожий анализ, но для всего файла. Он где-то на диске, давно забытый. Можно попробовать найти его, если нужно.
Иначе да, быстро и нечтогрязным способом было бы сделать разницу между копией, сохраненной с помощью gedit, — как предложил добрый мистер.@vonbrand.