txt 파일 인코딩 일괄 변환

2024-7-6 • tag-icon

폐쇄 자막 소프트웨어 프로세스의 결과인 약 700개의 파일이 있습니다. 내 PC나 Mac에서는 GUI로 파일을 열 수 있지만, nano를 사용하여 서버에서 파일을 열면 다음과 같은 결과가 나타납니다.

ï¿½ï¿½0^@0^@;^@0^@0^@;^@0^@0^@;^@0^@0^@ ^@0^@0^@;^@0^@0^@;^@0^@6^@;^@0^@0^@
^@
^@N^@o^@t^@ ^@A^@v^@a^@i^@l^@a^@b^@l^@e^@

내가 시도한 몇 가지 명령줄 작업의 결과는 다음과 같습니다.

#file infile.txt 
infile.txt: data

# file -bi --mime-encoding  infile.txt 
application/octet-stream; charset=binary

recode ../CR-LF infile.txt
#file -bi --mime-encoding  infile.txt

#iconv -f binary -t uff-8 infile.txt > out.txt
iconv: conversions from `binary' and to `uff-8' are not supported

#recode ../CR-LF infile.txt
#recode UTF8..ISO-8859-15 infile.txt 
# file -bi --mime-encoding  infile.txt 
text/plain; charset=utf-16le

#xxd infile.txt | head -5
0000000: fffe 3000 3000 3b00 3000 3000 3b00 3000  ..0.0.;.0.0.;.0.
0000010: 3000 3b00 3000 3000 2000 3000 3000 3b00  0.;.0.0. .0.0.;.
0000020: 3000 3000 3b00 3000 3600 3b00 3000 3000  0.0.;.0.6.;.0.0.
0000030: 0d00 0d0a 004e 006f 0074 0020 0041 0076  .....N.o.t. .A.v
0000040: 0061 0069 006c 0061 0062 006c 0065 00    .a.i.l.a.b.l.e.

실제 파일은 다음과 같습니다(최선의 선택이 아닌 것으로 밝혀졌습니다. 실수로 아무 내용도 없는 파일을 선택했습니다).

00;00;00;00 00;00;06;00 Not Available

그런 다음 파일을 나노화하면 하단에 DOS 및 Mac 형식에서 변환되었다는 텍스트가 표시되지만 여전히 모두 쓰레기입니다. 파일을 반복하여 데이터를 데이터베이스로 가져올 수 있어야 하지만, 물론 서버가 형식을 읽을 수 없으면 그렇게 할 수 없습니다.

앞으로 이러한 항목을 많이 생성할 것이므로 장기적인 솔루션을 찾고 싶습니다. Windows Powershell이나 이에 상응하는 것을 사용하지 않고 변환을 프로세스에 통합하고 싶습니다.

답변1

그래서 나를 위한 해결책은 결국 녹음을 사용하는 것이었습니다. 훌륭한 문서는 많지 않지만 -f 옵션을 사용하여 강제로 변경하도록 하는 것이 비결이었습니다.

recode -f UTF-7 *.txt

답변1

관련 정보