각 줄의 첫 번째 문자를 특수 문자로 제거하고 파일을 ; 세미콜론으로 구분된 파일

Question 1

FILE1.txt문제는 문자 인코딩에 대한 링크일 수 있다고 생각합니다. 두 환경 모두에 표시해 보십시오 .

hexdump -C FILE1.txt

E-ascii 또는 UTF-8로 코딩될 수 있습니다(참조:https://en.wikipedia.org/wiki/%C3%82#Character_mappings)

문제를 해결하려면 두 인코딩을 모두 일치시켜 보세요.

        â in UTF-8                     â in other encoding
        |                              |
        v                              v
sed 's/\xc3\xa2//' FILE1.txt | sed 's/\xE2//' > FILE2.txt

또 다른 해결책은 파일을 처리하기 전에 알려진 인코딩으로 변환하는 것입니다.

PROD 인코딩을 테스트하지 않는 것은 위험할 수 있습니다.

Answer

FILE1.txt문제는 문자 인코딩에 대한 링크일 수 있다고 생각합니다. 두 환경 모두에 표시해 보십시오 .

hexdump -C FILE1.txt

E-ascii 또는 UTF-8로 코딩될 수 있습니다(참조:https://en.wikipedia.org/wiki/%C3%82#Character_mappings)

문제를 해결하려면 두 인코딩을 모두 일치시켜 보세요.

        â in UTF-8                     â in other encoding
        |                              |
        v                              v
sed 's/\xc3\xa2//' FILE1.txt | sed 's/\xE2//' > FILE2.txt

또 다른 해결책은 파일을 처리하기 전에 알려진 인코딩으로 변환하는 것입니다.

PROD 인코딩을 테스트하지 않는 것은 위험할 수 있습니다.

Question 2

â당신이 보고 있는 것은 거의 확실히 인코딩 문제이고 모든 줄이 대문자로 시작한다고 가정하기 때문에 다음을 시도해 볼 수 있습니다 .

LC_ALL=C sed 's/^[^A-Z]*//; s/   */;/g' FILE1.txt > FILE2

그러면 귀하의 문자 가 AZ 범위에 포함되지 않도록 C보장하는 로케일을 사용하여 명령이 실행됩니다 . â그런 다음 sed 명령은 단순히 각 줄의 시작 부분에서 AZ 범위에 없는 모든 문자를 제거한 다음 두 개 이상의 공백이 있는 모든 항목을 ;.

Answer

â당신이 보고 있는 것은 거의 확실히 인코딩 문제이고 모든 줄이 대문자로 시작한다고 가정하기 때문에 다음을 시도해 볼 수 있습니다 .

LC_ALL=C sed 's/^[^A-Z]*//; s/   */;/g' FILE1.txt > FILE2

그러면 귀하의 문자 가 AZ 범위에 포함되지 않도록 C보장하는 로케일을 사용하여 명령이 실행됩니다 . â그런 다음 sed 명령은 단순히 각 줄의 시작 부분에서 AZ 범위에 없는 모든 문자를 제거한 다음 두 개 이상의 공백이 있는 모든 항목을 ;.

Question 3

노력하다

sed 's/^â//; s/   */;/g' FILE1.txt > FILE2.txt

그리고 그것이 당신에게 효과가 없다면 반대 투표하세요

Answer

노력하다

sed 's/^â//; s/   */;/g' FILE1.txt > FILE2.txt

그리고 그것이 당신에게 효과가 없다면 반대 투표하세요

Question 4

각 줄의 첫 번째 문자를 제거하려면 다음과 같아야 합니다.

cut -c2- # not with the GNU implementation which is currently not multi-byte aware
sed 's/^.//'
awk '{print substr($0, 2)}' # note the 2 instead of 1 as offsets are 1-based
                            # not with mawk or other non-multi-byte aware awk
                            # implementations.

그러나 .해당 â문자를 일치시키고 substr()제대로 작동하려면 â로케일 인코딩에 따라 인코딩해야 합니다(의 출력 참조 locale charmap).

첫 번째 문자를 제거하고 모든 공백 시퀀스를 로 바꾸려면 ;다음 중 하나를 수행할 수 있습니다.

sed 's/^.//;s/[[:space:]]\{1,\}/;/g'

또는:

awk -v OFS=';' '{$0 = substr($0, 2); $1 = $1; print}'

(후자는 공백 문자로 끝나는 줄에 대한 후행을 포함하지 않으며 ;구분 기호로 간주되는 공백 문자 목록은 구현 awk및 로케일에 따라 다릅니다.)

이제 â(U+00E2)가 iso8859-1 문자 집합(일명 latin1기타 단일 바이트 문자 집합이라고도 함)에서 바이트 0xe2로 인코딩된다는 점도 주의하세요. 그리고 해당 바이트 0xe2는 여러 개의 3바이트 UTF-8 문자 인코딩의 첫 번째 바이트이기도 하며 그 중에는 여러 유니코드 공백 문자(예: U+2000 ~ U+200B 공백 문자)도 포함됩니다.

따라서 âlatin1 터미널에 가 표시되는 경우 입력에 실제로 UTF-8(0xe2 0x80 0x82)로 인코딩된 U+2002(EN SPACE)가 포함되어 있을 수 있으며 터미널에서는 이를 다음과 같이 표시 합니다 0xe2. âlatin1에 없는 0x80 및 0x82에 대해서는 아무것도 표시되지 않습니다.

EN SPACE를 제거하려면 UTF-8 로케일인 문자 1개를 제거하거나 단일 바이트 로케일(예: latin1 또는 C 로케일을 사용하는 문자)에서 문자 3개를 제거해야 합니다.

Answer