
我有以下文件,其中前兩行就像單列(即連續字串)一樣。我想將它們分成列,並將“*”字元替換為“x”數字,將科學計數法和列格式指定為第四行和第五行。
0.001000000*********************************************
0.061059059-3524.927327218-3524.938421865***************
0.121118118 -887.564833130 -887.569649256-6250.350946527
0.181177177 -387.169559377 -387.173137963-2743.981985633
0.241236236 -223.812193853 -223.815321341-1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
請注意,第 1,2 行和第 3 行具有相同的問題,即有 2 個連續列,就好像有一個單列一樣(我想在它們之間放置一個空格)。我還想在列之間執行複雜的操作,例如 sqrt((sqrt($2 ^ 2 + $4 ^ 2) + $2) / 2) 。
預期成績:
0.001000000 -3524.927327218 -3524.938421865 -6250.350946527
0.061059059 -3524.927327218 -3524.938421865 -6250.350946527
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
我想知道是否有任何辦法可以解決我的問題。
答案1
在我看來,你有兩個截然不同的問題:
- 您需要填寫的不完整行
- 附加的數字不含分隔符
雖然這在一次 awk 呼叫中可能是可行的,但為了簡單起見,我將為每個任務調用 1 次。
根據您的範例輸入/輸出,我假設您的數字始終有 9 位小數。
處理“無分隔符號”問題
awk '{
while ($0 ~ /[0-9]+\.[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][^ ]/) {
$0=gensub(/([0-9]+\.[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9])([^ ])/, "\\1 \\2", $0)
}
print
}' input.txt > first_step.txt
注意:如果您的gawk
版本 >= 4.0,您可以替換[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]
為[0-9]{9}
,這會產生:
awk '{
while ($0 ~ /[0-9]+\.[0-9]{9}[^ ]/) {
$0=gensub(/([0-9]+\.[0-9]{9})([^ ])/, "\\1 \\2", $0)
}
print
}' input.txt > first_step.txt
(更容易閱讀吧?)有了這個,我們first_step.txt
看起來像這樣:
0.001000000 *********************************************
0.061059059 -3524.927327218 -3524.938421865 ***************
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
將“*”替換為以下行中的值
這也有點難以實現。假設這些「*」行僅出現在檔案的開頭。我們首先讓每行有 4 個欄位:
awk '/\*/ {
a=""
for (i=1; i < 5; i++) {
if (i < NF) a=a" "$i
else a=a" ***************"
}
print a; next
}
{print}' first_step.txt > second_step.txt
輸出輸入second_step.txt
0.001000000 *************** *************** ***************
0.061059059 -3524.927327218 -3524.938421865 ***************
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
現在,有趣的部分...
awk 'BEGIN{first_lines=0}
/\*/ {for (i=1; i<NF+1;i++) a[NR, i]=$i; next}
first_lines != 1 {for (i=1; i<NF+1;i++) {a[NR, i]=$i};
for (i=NR-1; i > 0; i--) {
for (j=1; j < NF +1; j++) {
if (a[i, j] ~ /^\**$/) a[i, j] = a[i+1, j]
}
}
for (i=1; i < NR+1; i++) {
for (j=1; j < NF +1; j++) {
printf("%16s", a[i, j])
}
printf("\n")
}
first_lines = 1
next
}
{for (i=1;i<NF+1; i++) printf("%16s", $i)
printf("\n")
}' second_step.txt > output.txt
輸出:
0.001000000 -3524.927327218 -3524.938421865 -6250.350946527
0.061059059 -3524.927327218 -3524.938421865 -6250.350946527
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134