파일 분할: `sed`에서 `egrep`을 대체합니다.

Question 1

wc, head및 tail: 사용

half=$(( $(wc -l "$file")/2 ))
head -$half | egrep -c dead | xargs echo "$file" $half > log_1
tail -$half | egrep -c dead | xargs echo "$file" $half > log_2

사용 split:

split -a1 --numeric-suffixes=1 -n 'l/2' "$file" "$file"_
echo "$file" "$file"_1 $(egrep -c dead "$file_1") > log_1
echo "$file" "$file"_2 $(egrep -c dead "$file"_2) > log_2
rm "$file"_[12]

Answer

wc, head및 tail: 사용

half=$(( $(wc -l "$file")/2 ))
head -$half | egrep -c dead | xargs echo "$file" $half > log_1
tail -$half | egrep -c dead | xargs echo "$file" $half > log_2

사용 split:

split -a1 --numeric-suffixes=1 -n 'l/2' "$file" "$file"_
echo "$file" "$file"_1 $(egrep -c dead "$file_1") > log_1
echo "$file" "$file"_2 $(egrep -c dead "$file"_2) > log_2
rm "$file"_[12]

Question 2

Awk 솔루션은 다음과 같습니다.

awk '/dead/ { a[++n] = NR }
    END { for (i=1; i<=n; i++) if (a[i] > NR/2) break
        print ARGV, int(NR/2), i-1 >"log_1";
        print ARGV, int(NR/2)+(int(NR/2)!=NR/2), n-i+1 >"log_2" }' file

a일치하는 줄 번호를 배열에 수집합니다 . 그런 다음 배열의 줄 번호 중 가장 가운데 줄보다 작은 줄 번호가 몇 개인지 알아냅니다. 해당 개수는 첫 번째 파티션에 할당됩니다. ( 루프에서 벗어날 i-1때 이미 분할 지점을 지나갔기 때문에 사용해야 합니다 .)break

일반적으로 동일한 파일을 여러 번 다시 읽는 것을 피하고 싶을 것입니다. 특히 파일이 클 경우에는 더욱 그렇습니다. 둘째, 프로세스 수를 최소화하려고 노력하십시오.

중간 출력 필드에 무엇을 포함할지 명확하지 않습니다. 파일에 홀수 줄이 포함되어 있으면 첫 번째 "절반"에는 두 번째 파티션보다 한 줄 적습니다. (변경하기는 어렵지 않지만 어느 쪽이든 결정해야 합니다.)

Answer

Awk 솔루션은 다음과 같습니다.

awk '/dead/ { a[++n] = NR }
    END { for (i=1; i<=n; i++) if (a[i] > NR/2) break
        print ARGV, int(NR/2), i-1 >"log_1";
        print ARGV, int(NR/2)+(int(NR/2)!=NR/2), n-i+1 >"log_2" }' file

a일치하는 줄 번호를 배열에 수집합니다 . 그런 다음 배열의 줄 번호 중 가장 가운데 줄보다 작은 줄 번호가 몇 개인지 알아냅니다. 해당 개수는 첫 번째 파티션에 할당됩니다. ( 루프에서 벗어날 i-1때 이미 분할 지점을 지나갔기 때문에 사용해야 합니다 .)break

일반적으로 동일한 파일을 여러 번 다시 읽는 것을 피하고 싶을 것입니다. 특히 파일이 클 경우에는 더욱 그렇습니다. 둘째, 프로세스 수를 최소화하려고 노력하십시오.

중간 출력 필드에 무엇을 포함할지 명확하지 않습니다. 파일에 홀수 줄이 포함되어 있으면 첫 번째 "절반"에는 두 번째 파티션보다 한 줄 적습니다. (변경하기는 어렵지 않지만 어느 쪽이든 결정해야 합니다.)

파일 분할: `sed`에서 `egrep`을 대체합니다.

답변1

답변2

관련 정보