Я хочу удалить первый символ из каждой строки как его специальный и преобразовать файл в файл, разделенный точкой с запятой

Question 1

Я думаю, что проблема может быть связана с кодировкой символов, попробуйте отобразить FILE1.txtв обоих окружениях с помощью

hexdump -C FILE1.txt

Он может быть закодирован как E-ascii или UTF-8 (см.https://en.wikipedia.org/wiki/%C3%82#Character_mappings)

Чтобы решить вашу проблему, вы можете попробовать сопоставить обе кодировки:

        â in UTF-8                     â in other encoding
        |                              |
        v                              v
sed 's/\xc3\xa2//' FILE1.txt | sed 's/\xE2//' > FILE2.txt

Другим решением может стать конвертация файла в известную кодировку перед его обработкой.

Не проверять кодировку PROD может быть опасно.

Answer

Я думаю, что проблема может быть связана с кодировкой символов, попробуйте отобразить FILE1.txtв обоих окружениях с помощью

hexdump -C FILE1.txt

Он может быть закодирован как E-ascii или UTF-8 (см.https://en.wikipedia.org/wiki/%C3%82#Character_mappings)

Чтобы решить вашу проблему, вы можете попробовать сопоставить обе кодировки:

        â in UTF-8                     â in other encoding
        |                              |
        v                              v
sed 's/\xc3\xa2//' FILE1.txt | sed 's/\xE2//' > FILE2.txt

Другим решением может стать конвертация файла в известную кодировку перед его обработкой.

Не проверять кодировку PROD может быть опасно.

Question 2

Поскольку то, что âвы видите, почти наверняка связано с проблемой кодировки, и если предположить, что все ваши строки должны начинаться с заглавной буквы, вы можете попробовать следующее:

LC_ALL=C sed 's/^[^A-Z]*//; s/   */;/g' FILE1.txt > FILE2

Это запустит команду с использованием Cлокали, которая должна гарантировать, что любой ваш символ âне будет включен в диапазон AZ. Затем команда sed просто удаляет все символы, не входящие в диапазон AZ, из начала каждой строки, а затем преобразует все вхождения двух или более пробелов в ;.

Answer

Поскольку то, что âвы видите, почти наверняка связано с проблемой кодировки, и если предположить, что все ваши строки должны начинаться с заглавной буквы, вы можете попробовать следующее:

LC_ALL=C sed 's/^[^A-Z]*//; s/   */;/g' FILE1.txt > FILE2

Это запустит команду с использованием Cлокали, которая должна гарантировать, что любой ваш символ âне будет включен в диапазон AZ. Затем команда sed просто удаляет все символы, не входящие в диапазон AZ, из начала каждой строки, а затем преобразует все вхождения двух или более пробелов в ;.

Question 3

пытаться

sed 's/^â//; s/   */;/g' FILE1.txt > FILE2.txt

И поставьте минус, если вам это не подходит.

Answer

пытаться

sed 's/^â//; s/   */;/g' FILE1.txt > FILE2.txt

И поставьте минус, если вам это не подходит.

Question 4

Чтобы удалить первый символ каждой строки, необходимо:

cut -c2- # not with the GNU implementation which is currently not multi-byte aware
sed 's/^.//'
awk '{print substr($0, 2)}' # note the 2 instead of 1 as offsets are 1-based
                            # not with mawk or other non-multi-byte aware awk
                            # implementations.

Однако следует помнить, что для .соответствия этому âсимволу и substr()правильной работы он âдолжен быть закодирован в соответствии с кодировкой локали (см. вывод locale charmap).

Чтобы удалить первый символ и заменить все последовательности пробелов на ;, вы можете сделать следующее:

sed 's/^.//;s/[[:space:]]\{1,\}/;/g'

Или:

awk -v OFS=';' '{$0 = substr($0, 2); $1 = $1; print}'

(хотя будьте осторожны, последний вариант не будет включать завершающий символ ;для строк, заканчивающихся пробелами, а список пробелов, которые считаются разделителями, зависит от awkреализации и локали).

Теперь также имейте в виду, что â(U+00E2) кодируется как байт 0xe2 в кодировке iso8859-1 (она же latin1и несколько других однобайтовых кодировок). И этот байт 0xe2 также является первым байтом кодировки ряда 3-байтовых символов UTF-8, среди которых есть несколько пробельных символов Unicode (например, пробельные символы U+2000 - U+200B).

Итак, если вы видите âотображаемый в терминале latin1, возможно, что входные данные на самом деле содержат U+2002 (EN SPACE), например, закодированный в UTF-8 (0xe2 0x80 0x82), и ваш терминал отобразит это 0xe2как âи ничего не покажет для 0x80 и 0x82, которые не входят в latin1.

Чтобы избавиться от этого пробела, вам придется либо удалить 1 символ в локали UTF-8, либо удалить 3 символа в однобайтовой локали (например, в локали latin1 или C).

Answer

Чтобы удалить первый символ каждой строки, необходимо:

cut -c2- # not with the GNU implementation which is currently not multi-byte aware
sed 's/^.//'
awk '{print substr($0, 2)}' # note the 2 instead of 1 as offsets are 1-based
                            # not with mawk or other non-multi-byte aware awk
                            # implementations.

Однако следует помнить, что для .соответствия этому âсимволу и substr()правильной работы он âдолжен быть закодирован в соответствии с кодировкой локали (см. вывод locale charmap).

Чтобы удалить первый символ и заменить все последовательности пробелов на ;, вы можете сделать следующее:

sed 's/^.//;s/[[:space:]]\{1,\}/;/g'

Или:

awk -v OFS=';' '{$0 = substr($0, 2); $1 = $1; print}'

(хотя будьте осторожны, последний вариант не будет включать завершающий символ ;для строк, заканчивающихся пробелами, а список пробелов, которые считаются разделителями, зависит от awkреализации и локали).

Теперь также имейте в виду, что â(U+00E2) кодируется как байт 0xe2 в кодировке iso8859-1 (она же latin1и несколько других однобайтовых кодировок). И этот байт 0xe2 также является первым байтом кодировки ряда 3-байтовых символов UTF-8, среди которых есть несколько пробельных символов Unicode (например, пробельные символы U+2000 - U+200B).

Итак, если вы видите âотображаемый в терминале latin1, возможно, что входные данные на самом деле содержат U+2002 (EN SPACE), например, закодированный в UTF-8 (0xe2 0x80 0x82), и ваш терминал отобразит это 0xe2как âи ничего не покажет для 0x80 и 0x82, которые не входят в latin1.

Чтобы избавиться от этого пробела, вам придется либо удалить 1 символ в локали UTF-8, либо удалить 3 символа в однобайтовой локали (например, в локали latin1 или C).

Я хочу удалить первый символ из каждой строки как его специальный и преобразовать файл в файл, разделенный точкой с запятой

решение1

решение2

решение3

решение4

Связанный контент