使用 awk 提取每行的前兩部分

Question 1

短的awk方法：

awk '{split($2,a,":"); $2=(length(a)>1)? a[1]":"a[2] : $2}1' file

輸出：

0 22:16050847 0 16050847
0 rs62224609:16051249 0 16051249
0 22:16051250 0 16051250
0 GSA-rs138295790 0 16057310

split($2,a,":")a-透過分隔符號將第二個欄位拆分為數組:

Answer

短的awk方法：

awk '{split($2,a,":"); $2=(length(a)>1)? a[1]":"a[2] : $2}1' file

輸出：

0 22:16050847 0 16050847
0 rs62224609:16051249 0 16051249
0 22:16051250 0 16051250
0 GSA-rs138295790 0 16057310

split($2,a,":")a-透過分隔符號將第二個欄位拆分為數組:

Question 2

如果您有 GNU awk：

gawk '{split($2,a,/[:-]/,c); $2 = sprintf("%s%c%s", a[1], c[1], a[2])} 1' file
0 22:16050847 0 16050847
0 rs62224609:16051249 0 16051249
0 22:16051250 0 16051250
0 GSA-rs138295790 0 16057310

Answer

如果您有 GNU awk：

gawk '{split($2,a,/[:-]/,c); $2 = sprintf("%s%c%s", a[1], c[1], a[2])} 1' file
0 22:16050847 0 16050847
0 rs62224609:16051249 0 16051249
0 22:16051250 0 16051250
0 GSA-rs138295790 0 16057310

Question 3

和perl：

perl -lpe 's/^\S+\s+[^:]+:[^:]+\K\S+//' file

使用 GNU sed：

sed -E ':t s/:\w+//2; tt' file

輸出：

0   22:16050847 0   16050847
0   rs62224609:16051249 0   16051249
0   22:16051250 0   16051250
0   GSA-rs138295790 0   16057310

Answer

和perl：

perl -lpe 's/^\S+\s+[^:]+:[^:]+\K\S+//' file

使用 GNU sed：

sed -E ':t s/:\w+//2; tt' file

輸出：

0   22:16050847 0   16050847
0   rs62224609:16051249 0   16051249
0   22:16051250 0   16051250
0   GSA-rs138295790 0   16057310

Question 4

重擊：

while read -r f1 f2 rest; do
   printf '%s' "$f1" "$(expr " $f2" : '\([^:]*:[^:]*\).*' \| " $f2")" "$rest"; echo
   # the lone echo provides for the newline
done < yourfile

read將把字段分割成$f1, $2，所有剩餘的字段將被集中到$rest.然後，在第二個欄位上$f2，我們運行expr以提取第一個和第二個以冒號分隔的欄位。如果這是不可能的，那麼我們最終會使用$f2變數本身。

塞德：

sed -e '
   s/[^[:space:]]\{1,\}/\
&\
/2
   :loop
      s/\n\(.*:.*\):.*\n/\n\1\n/
   tloop
   s/\n//g
' yourfile

我們首先用包圍第二個字段\n，然後圍繞該區域運行一個循環，直到只剩下兩個字段（或一個字段分隔符）。

珀爾：

perl -pe 's/\G[^:\h]+:[^:\h]+\K\S+//,next while /\S\h+\S/g' yourfile

perl -pe 's/^\h*\S+\h+(?:(?!:)\S)+:(?:(?!:)\S)+\K\S+//' yourfile

perl -F'(\h+)' -lane '
   /:/ and $_ = join ":", (/[^:]+/g)[0,1] for $F[/^\h/?4:2];
   print @F;
' yourfile

結果

0   22:16050847 0   16050847
0   rs62224609:16051249 0   16051249
0   22:16051250 0   16051250
0   GSA-rs138295790 0   16057310

Answer

重擊：

while read -r f1 f2 rest; do
   printf '%s' "$f1" "$(expr " $f2" : '\([^:]*:[^:]*\).*' \| " $f2")" "$rest"; echo
   # the lone echo provides for the newline
done < yourfile

read將把字段分割成$f1, $2，所有剩餘的字段將被集中到$rest.然後，在第二個欄位上$f2，我們運行expr以提取第一個和第二個以冒號分隔的欄位。如果這是不可能的，那麼我們最終會使用$f2變數本身。

塞德：

sed -e '
   s/[^[:space:]]\{1,\}/\
&\
/2
   :loop
      s/\n\(.*:.*\):.*\n/\n\1\n/
   tloop
   s/\n//g
' yourfile

我們首先用包圍第二個字段\n，然後圍繞該區域運行一個循環，直到只剩下兩個字段（或一個字段分隔符）。

珀爾：

perl -pe 's/\G[^:\h]+:[^:\h]+\K\S+//,next while /\S\h+\S/g' yourfile

perl -pe 's/^\h*\S+\h+(?:(?!:)\S)+:(?:(?!:)\S)+\K\S+//' yourfile

perl -F'(\h+)' -lane '
   /:/ and $_ = join ":", (/[^:]+/g)[0,1] for $F[/^\h/?4:2];
   print @F;
' yourfile

結果

0   22:16050847 0   16050847
0   rs62224609:16051249 0   16051249
0   22:16051250 0   16051250
0   GSA-rs138295790 0   16057310

使用 awk 提取每行的前兩部分

答案1

答案2

答案3

答案4

結果

相關內容