連接：兩個檔案 - 但僅附加最後兩列

Question 1

我認為你一個人無法做到這join一點。你可以這樣做：

join -t, -a1 -a2 -o0,1.2,1.3,1.4,1.5,2.2,2.3,2.4,2.5 -e MISSING 1.txt 2.txt |
  perl -F, -lape '@F[1..2]=@F[5..6] if $F[1] eq "MISSING";
                  $_=join",",@F[0..4],@F[7..8]'

-p：使用像 sed/awk 那樣的逐行讀取循環
-a, -F,：像 awk 一樣，將行分割成欄位（放入@F陣列中）。
-l：作用於行的內容（類似於在( )awk上分割輸入（但不包含在) 中，且( ) 在列印之前附加）。RS$/RS$0ORS$\
-e ...: perl [e] 表達式來評估每一行。
然後它讀起來幾乎像英語：如果字段 1（索引從 0 開始的第二個字段）為“MISSING”，則字段 1 到 2 將設置為字段 5 到 6。然後將目前記錄的內容（$_就像awk中的$0）設定到欄位0到4和7到8。

實際上，編寫相同的內容awk並不複雜：

awk -F, -vOFS=, '$2 == "MISSING"{$2=$6;$3=$7}
                 {print $1,$2,$3,$4,$5,$8,$9}'

Answer

我認為你一個人無法做到這join一點。你可以這樣做：

join -t, -a1 -a2 -o0,1.2,1.3,1.4,1.5,2.2,2.3,2.4,2.5 -e MISSING 1.txt 2.txt |
  perl -F, -lape '@F[1..2]=@F[5..6] if $F[1] eq "MISSING";
                  $_=join",",@F[0..4],@F[7..8]'

-p：使用像 sed/awk 那樣的逐行讀取循環
-a, -F,：像 awk 一樣，將行分割成欄位（放入@F陣列中）。
-l：作用於行的內容（類似於在( )awk上分割輸入（但不包含在) 中，且( ) 在列印之前附加）。RS$/RS$0ORS$\
-e ...: perl [e] 表達式來評估每一行。
然後它讀起來幾乎像英語：如果字段 1（索引從 0 開始的第二個字段）為“MISSING”，則字段 1 到 2 將設置為字段 5 到 6。然後將目前記錄的內容（$_就像awk中的$0）設定到欄位0到4和7到8。

實際上，編寫相同的內容awk並不複雜：

awk -F, -vOFS=, '$2 == "MISSING"{$2=$6;$3=$7}
                 {print $1,$2,$3,$4,$5,$8,$9}'

Question 2

僅使用 awk：

awk -F, -v OFS=, '
    BEGIN {m = " MISSING"}

    # process file1
    NR == FNR {lines[$1] = $0; next} 

    # process file2
    {
        added[$1] = $4 OFS $5
        if (!($1 in lines)) {
            $4 = m
            $5 = m
            lines[$1] = $0
        }
    } 

    # print the combined output
    END {
        for (id in lines) {
            if (!(id in added)) 
                added[id] = m OFS m
            print lines[id], added[id]
        }
    }
' 1.txt 2.txt | sort -n

1, abc, 123, 456, 789, 000, 000
2, lmn, 123, 456, 789, MISSING, MISSING
3, pqr, 123, 456, 789, 000, 000
9, opq, 123, MISSING, MISSING, 000, 000

Answer

僅使用 awk：

awk -F, -v OFS=, '
    BEGIN {m = " MISSING"}

    # process file1
    NR == FNR {lines[$1] = $0; next} 

    # process file2
    {
        added[$1] = $4 OFS $5
        if (!($1 in lines)) {
            $4 = m
            $5 = m
            lines[$1] = $0
        }
    } 

    # print the combined output
    END {
        for (id in lines) {
            if (!(id in added)) 
                added[id] = m OFS m
            print lines[id], added[id]
        }
    }
' 1.txt 2.txt | sort -n

1, abc, 123, 456, 789, 000, 000
2, lmn, 123, 456, 789, MISSING, MISSING
3, pqr, 123, 456, 789, 000, 000
9, opq, 123, MISSING, MISSING, 000, 000

Question 3

聽起來您想加入前三個領域。然後，您應該在新的第一個欄位上更改前兩個分隔符join，然後恢復分隔符：

join -t, -j1 -a1 -a2 -o 0 1.2 1.3 2.2 2.3 -e " MISSING" \
<(sed 's/, /\x02/;s/, /\x02/' 1.txt) <(sed 's/, /\x02/;s/, /\x02/' 2.txt) \
| sed 's/\x02/, /g'

回報

1, abc, 123, 456, 789, 000, 000
2, lmn, 123, 456, 789, MISSING, MISSING
3, pqr, 123, 456, 789, 000, 000
9, opq, 123, MISSING, MISSING, 000, 000

Answer

聽起來您想加入前三個領域。然後，您應該在新的第一個欄位上更改前兩個分隔符join，然後恢復分隔符：

join -t, -j1 -a1 -a2 -o 0 1.2 1.3 2.2 2.3 -e " MISSING" \
<(sed 's/, /\x02/;s/, /\x02/' 1.txt) <(sed 's/, /\x02/;s/, /\x02/' 2.txt) \
| sed 's/\x02/, /g'

回報

1, abc, 123, 456, 789, 000, 000
2, lmn, 123, 456, 789, MISSING, MISSING
3, pqr, 123, 456, 789, 000, 000
9, opq, 123, MISSING, MISSING, 000, 000

連接：兩個檔案 - 但僅附加最後兩列

1.txt

2.txt

輸出.txt

答案1

答案2

答案3

相關內容