折疊連續行的一些重複部分

折疊連續行的一些重複部分

我在記事本中有這樣的數據:

4480-1
4480-2
4480-3
4480-15
4581-1
4581-2
4581-3
4581-4

我們可以使用 for 迴圈之類的東西來做到這一點嗎?用 sed 嗎?

我所需的輸出是4480-1&-2&-3&-15&4581-1&-2&-3&-4

答案1

這應該有效:

awk -F- '$1!=a{printf "%s", $1} {printf "-%s&", $2} {a=$1}' file | sed 's/&$/\n/g'

輸出:

4480-1&-2&-3&-15&4581-1&-2&-3&-4

說明:

  • awk -F-分隔符號是-
  • $1!=a{printf "%s", $1}4480如果第一部分與最後處理的行不同,則列印第一部分
  • {printf "-%s&", $2}&在最後列印第二部分
  • {a=$1}將 a 設定為已處理的行
  • sed 's/&$/\n/g'刪除最後一個字元 a&並新增換行符

答案2

我認為你不能sed輕易做到這一點。使用以下方法更容易perl

$ perl -F'-' -anle '
    $h{$F[0]} .= defined($h{$F[0]}) ? "&-".$F[1] : "-".$F[1];
    END {
        $,="&";
        print @{[map { $_.$h{$_} } sort { $a <=> $b } keys %h]}
    }
' file
4480-1&-2&-3&-15&4581-1&-2&-3&-4

答案3

sed 可能不可能。我正在用AWK做。我假設每行一個條目。

awk '
  BEGIN { FS="-"; ORS=""; left="" }

  {
    if(NR>1){print "&"}

    # Only print left part if it differs from previous line
    if ($1!=left) {
      print $1 "-" $2
      left=$1;
    } else {
      print "-" $2
    }
  }' inputfile.txt

輸出4480-1&-2&-3&-15&4581-1&-2&-3&-4

答案4

應該是 sed,但這裡是 perl:

#!/usr/bin/perl

while ( ($a,$b) = split /-/,<>) { $n->{$a}->{"-$b"}++;}

@_ = map { $_,
           map { chomp; "$_&"; } reverse sort { $a <=> $b } keys $n->{$_};
     } sort { $a <=> $b } keys $n;

@_[-1] =~ s/&$//;

print @_;

按數字排序的輸出,不依賴輸入順序:

4480-1&-2&-3&-15&4581-1&-2&-3&-4

相關內容