Bash：標題大小寫 csv 字段

Question 1

^{這裡，要將第 5個}欄位中的名稱大寫，如果Lingua::EN::NameCase perl模組可用：

perl -Mopen=locale -MLingua::EN::NameCase -F, -ae '
  $F[4] = nc $F[4] unless @F < 5;
  print join ",", @F' < your-file

如果不是，作為近似值，您可以將一個或多個字母數字字元的每個序列的第一個字元轉換為大寫：

perl -Mopen=locale -F, -ae '
  $F[4] =~ s/\w+/\u$&/g unless @F < 5;
  print join ",", @F' < your-file

然而，這將無法正確處理諸如McGregor, van Dike... 或帶有組合字元的名稱。

（perl 還具有適當的 CSV 解析模組，以防您的輸入不僅僅是簡單的 csv，而無需在範例中引用）。

使用標準語法也可以完成相同的操作awk，但要麻煩得多：

awk -F, -v OFS=, '
  NF >= 5 {
    r = $5; $5 = ""
    while (match(r, "[[:alnum:]]+")) {
      $5 = $5 substr(r, 1, RSTART - 1) \
           toupper(substr(r, RSTART, 1)) \
           substr(r, RSTART + 1, RLENGTH - 1)
      r = substr(r, RSTART + RLENGTH)
    }
    $5 = $5 r
  }
  {print}' < your-file

使用 GNUawk及其patsplit()函數會稍微容易一些：

gawk -F, -v OFS=, '
  NF >= 5 {
    n = patsplit($5, f, /[[:alnum:]]+/, s)
    $5 = s[0]
    for (i = 1; i <= n; i++)
      $5 = $5 toupper(substr(f[i], 1, 1)) \
              substr(f[i], 2) s[i]
  }
  {print}' < your-file

如果必須使用 shell 循環，至少使用帶有大寫運算子的 shell：

#! /bin/zsh -
while IFS=, read -ru3 -A fields; do
  (( $#fields < 5 )) || fields[5]=${(C)fields[5]}
  print -r -- ${(j[,])fields} || exit
done 3< your-file

請注意，其中一個（以及Lingua::EN::NameCase基於它的）與其他的不同之處在於，它變成了éric serRA實例Éric Serra而不是Éric SerRA實例。perl透過將\uto\u\L和 inawk應用於tolower()每個單字的第二部分，您可以獲得相同的結果。

如果您必須僅使用bash及其內建命令（如您在註釋中指出的那樣），那將更加麻煩（除了效率低之外），因為與zsh 或ksh93 相比，bash 的操作符非常有限，而且它的操作符也非常有限。read -a無法讀取分隔值。

那必須是這樣的（這裡假設${var^}運算子是 bash 4.0+）：

#! /bin/bash -
set -o noglob -o nounset
IFS=,
re='^([^[:alnum:]]*)([[:alnum:]]+)(.*)$'
while IFS= read -ru3 line; do
  fields=( $line'' )
  if (( ${#fields[@]} >= 5 )); then
    rest="${fields[4]}" fields[4]=
    while [[ "$rest" =~ $re ]]; do
      fields[4]="${fields[4]}${BASH_REMATCH[1]}${BASH_REMATCH[2]^}"
      rest="${BASH_REMATCH[3]}"
    done
  fi
  printf '%s\n' "${fields[*]}" || exit
done 3< your-file

這些假設輸入是在使用者區域設定字元集中編碼的有效文字（例如，在 UTF-8 區域設定中，上面的內容é以UTF-8（0xc3 0xa9 位元組）編碼，而不是iso8859-1 或其他字元集）。 bash（可能還有 awk）會因 NUL 位元組而阻塞。

由於perl'\w是 alnums + 下劃線，因此您還會發現字串之間的差異，其中jean_pierre的perl字串大寫為 as，Jean_pierre而其他字串則大寫為Jean_Pierre。您可能需要適應您的特定輸入（也可以考慮組合字符，這也會在此處的工作中添加扳手）。另請參閱Lingua::EN::NameCase perl模組來處理更多特殊情況。

至於預設安裝在什麼系統上的命令。大多數系統都會有perl（可能是Text::CSV模組，但可能不是那個Lingua::EN::NameCase）和 POSIX 相容awk和sh實現，許多（甚至一些非 GNU 系統）有bash（GNU shell），有些有 GNU awk（儘管不是一些基於 GNU 的系統）例如Ubuntu ，至少在某些版本中喜歡mawk）。目前很少有zsh預設安裝的。

CentOS 作為 GNU 系統bash，gawk除了perl.bash甚至gawk提供sh和awk那裡。

Answer

不要使用 shell 循環來處理文本。使用文字處理實用程式。