從行中唯一排序

Question 1

perl -MList::MoreUtils=uniq -laF'\t' -ne '
    $F[1] = join(",", uniq(sort(split(",", $F[1])))); print join("\t", @F)'

這取決於外部包列表::更多實用工具。如果您不想安裝外部依賴項，則重新實作該uniq功能是只需要幾行 Perl 程式碼。（儘管我似乎已將其作為 macOS 基本系統的一部分進行安裝。）

Answer

使用這個答案,

perl -MList::MoreUtils=uniq -laF'\t' -ne '
    $F[1] = join(",", uniq(sort(split(",", $F[1])))); print join("\t", @F)'

這取決於外部包列表::更多實用工具。如果您不想安裝外部依賴項，則重新實作該uniq功能是只需要幾行 Perl 程式碼。（儘管我似乎已將其作為 macOS 基本系統的一部分進行安裝。）

Question 2

perl -F'\t|,' -lane 'my %h; print shift @F, "\t", join ",", sort grep !$h{$_}++, @F' dataf

解釋

-F'\t|,'@F=> 將每個記錄欄位拆分為TAB或字元數組comma。
-l也會設定RStonewline和ORSto newline。
-a將根據FS選擇的內容自動將每個記錄拆分為單字-F。
-n將在輸入上設定循環讀取的隱式記錄，AND僅在要求時才列印內容。
-e是根據上面的choenPerl對輸入的每筆記錄執行的程式碼。RS-l
第一個元素將由給出shift，其餘元素將uniquified通過將它們存儲為散列的鍵來給出，%h每次讀入記錄時都會重新生成該散列。

Answer

perl -F'\t|,' -lane 'my %h; print shift @F, "\t", join ",", sort grep !$h{$_}++, @F' dataf

解釋

-F'\t|,'@F=> 將每個記錄欄位拆分為TAB或字元數組comma。
-l也會設定RStonewline和ORSto newline。
-a將根據FS選擇的內容自動將每個記錄拆分為單字-F。
-n將在輸入上設定循環讀取的隱式記錄，AND僅在要求時才列印內容。
-e是根據上面的choenPerl對輸入的每筆記錄執行的程式碼。RS-l
第一個元素將由給出shift，其餘元素將uniquified通過將它們存儲為散列的鍵來給出，%h每次讀入記錄時都會重新生成該散列。

Question 3

使用 OpenBSD awk、GNUawk和進行了測試mawk：

awk -F ',| +' '{ for (i = 2; i <= NF; ++i) { print $1, $i } }' data.in |
sort -u |
awk '{ f[$1] = (f[$1] ? f[$1] "," : "") $2 } END { for (k in f) { print k, f[k] } }'

第一個awk將給定資料擴展為

Special c1
Special c2
Special c5
Special c7
Special c1
Special c2
Special2 C6

它使用逗號和多個空格作為字段分隔符，並且對於輸入的每個記錄（行），它在單獨的行上依次列印第一個字段，然後依次列印其他每個字段。這假設除了將被正確解釋為分隔符號的位置之外，行上沒有其他空格或逗號。

中間sort的將其排序為

Special2 C6
Special c1
Special c2
Special c5
Special c7

它使用整行作為排序鍵進行排序，並丟棄任何重複的行。

最後awk將數據重新組合成

Special c1,c2,c5,c7
Special2 C6

它透過使用第一個欄位作為關聯數組的鍵並將相應資料的逗號分隔串聯儲存在第二個欄位中作為值來實現此目的。最後，列印所有收集的數據。

Answer