
次のファイルでは、最初の 2 行が単一列 (つまり連続した文字列) のように見えます。これらの行を列に分割し、"*" 文字を "x" 番号に置き換えて、科学的記数法と列形式を 4 行目と 5 行目に指定します。
0.001000000*********************************************
0.061059059-3524.927327218-3524.938421865***************
0.121118118 -887.564833130 -887.569649256-6250.350946527
0.181177177 -387.169559377 -387.173137963-2743.981985633
0.241236236 -223.812193853 -223.815321341-1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
1、2、3 行目には、1 列の場合と同じように 2 つの連続した列があるという同じ問題があることに注意してください (列間にスペースを入れたい)。また、列間で sqrt((sqrt($2 ^ 2 + $4 ^ 2) + $2) / 2) などの複雑な演算を実行したいとも考えています。
予想された結果:
0.001000000 -3524.927327218 -3524.938421865 -6250.350946527
0.061059059 -3524.927327218 -3524.938421865 -6250.350946527
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
私の問題に何か解決策があるかどうか知りたいです。
答え1
2 つの非常に異なる問題があるように思われます。
- 記入が必要な不完全な行
- 区切りなしで追加された数字
これはおそらく 1 回の awk 呼び出しで実行可能ですが、簡単にするためにタスクごとに 1 回呼び出します。
サンプルの入力/出力から、数値には常に 9 桁の小数点が含まれると想定しています。
「区切り文字がない」問題への対処
awk '{
while ($0 ~ /[0-9]+\.[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][^ ]/) {
$0=gensub(/([0-9]+\.[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9])([^ ])/, "\\1 \\2", $0)
}
print
}' input.txt > first_step.txt
注:gawk
バージョンが >= 4.0 の場合は、[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]
を に置き換えることができます[0-9]{9}
。結果は次のようになります。
awk '{
while ($0 ~ /[0-9]+\.[0-9]{9}[^ ]/) {
$0=gensub(/([0-9]+\.[0-9]{9})([^ ])/, "\\1 \\2", $0)
}
print
}' input.txt > first_step.txt
(読みやすくなりましたよね?) これにより、first_step.txt
次のようになります。
0.001000000 *********************************************
0.061059059 -3524.927327218 -3524.938421865 ***************
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
'*' を次の行の値に置き換えます
これを実現するのも少し難しいです。これらの '*' 行がファイルの先頭にのみ出現すると仮定します。まず、各行に 4 つのフィールドがあるようにします。
awk '/\*/ {
a=""
for (i=1; i < 5; i++) {
if (i < NF) a=a" "$i
else a=a" ***************"
}
print a; next
}
{print}' first_step.txt > second_step.txt
出力second_step.txt
0.001000000 *************** *************** ***************
0.061059059 -3524.927327218 -3524.938421865 ***************
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134
さて、ここからが楽しいところです...
awk 'BEGIN{first_lines=0}
/\*/ {for (i=1; i<NF+1;i++) a[NR, i]=$i; next}
first_lines != 1 {for (i=1; i<NF+1;i++) {a[NR, i]=$i};
for (i=NR-1; i > 0; i--) {
for (j=1; j < NF +1; j++) {
if (a[i, j] ~ /^\**$/) a[i, j] = a[i+1, j]
}
}
for (i=1; i < NR+1; i++) {
for (j=1; j < NF +1; j++) {
printf("%16s", a[i, j])
}
printf("\n")
}
first_lines = 1
next
}
{for (i=1;i<NF+1; i++) printf("%16s", $i)
printf("\n")
}' second_step.txt > output.txt
出力:
0.001000000 -3524.927327218 -3524.938421865 -6250.350946527
0.061059059 -3524.927327218 -3524.938421865 -6250.350946527
0.121118118 -887.564833130 -887.569649256 -6250.350946527
0.181177177 -387.169559377 -387.173137963 -2743.981985633
0.241236236 -223.812193853 -223.815321341 -1504.799155086
0.301295295 -134.073058536 -134.075910507 -924.916305653
0.361354354 -76.668692929 -76.671412688 -612.480371134