Bash: CSV フィールドをタイトルケースにする

Question 1

ここで、5^番目のフィールドの名前を大文字にするには、Lingua::EN::NameCase perlモジュールが利用可能です:

perl -Mopen=locale -MLingua::EN::NameCase -F, -ae '
  $F[4] = nc $F[4] unless @F < 5;
  print join ",", @F' < your-file

そうでない場合は、近似値として、1 つ以上の英数字のシーケンスの最初の文字を大文字に変換できます。

perl -Mopen=locale -F, -ae '
  $F[4] =~ s/\w+/\u$&/g unless @F < 5;
  print join ",", @F' < your-file

ただし、、McGregor...などの名前van Dikeや結合文字を含む名前は適切に処理されません。

(入力がサンプル内の引用符なしの単純な csv だけではない場合は、perl に適切な CSV 解析モジュールもあります)。

同じことは標準構文でも実行できますawkが、はるかに面倒です。

awk -F, -v OFS=, '
  NF >= 5 {
    r = $5; $5 = ""
    while (match(r, "[[:alnum:]]+")) {
      $5 = $5 substr(r, 1, RSTART - 1) \
           toupper(substr(r, RSTART, 1)) \
           substr(r, RSTART + 1, RLENGTH - 1)
      r = substr(r, RSTART + RLENGTH)
    }
    $5 = $5 r
  }
  {print}' < your-file

GNUawkとそのpatsplit()機能を使用すると少し簡単になります:

gawk -F, -v OFS=, '
  NF >= 5 {
    n = patsplit($5, f, /[[:alnum:]]+/, s)
    $5 = s[0]
    for (i = 1; i <= n; i++)
      $5 = $5 toupper(substr(f[i], 1, 1)) \
              substr(f[i], 2) s[i]
  }
  {print}' < your-file

シェルループを使用する必要がある場合は、少なくとも大文字演算子を含むシェルを使用してください。

#! /bin/zsh -
while IFS=, read -ru3 -A fields; do
  (( $#fields < 5 )) || fields[5]=${(C)fields[5]}
  print -r -- ${(j[,])fields} || exit
done 3< your-file

1 つ (および基になるもの) は、たとえばの代わりにになるLingua::EN::NameCaseという点で他のものと異なることに注意してください。をに変更し、を各単語の 2 番目の部分に適用することで、同じ結果を得ることができます。éric serRAÉric SerraÉric SerRAperl\u\u\Lawktolower()

コメントで指摘されているように、組み込みコマンドのみを使用しなければならない場合、bashbashはzshやksh93などに比べて演算子が非常に限られているため、はるかに面倒になります（非効率的です）。read -a分離された値を読み取ることができません。

それは次のようになります (ここでは${var^}演算子として bash 4.0+ を想定しています)。

#! /bin/bash -
set -o noglob -o nounset
IFS=,
re='^([^[:alnum:]]*)([[:alnum:]]+)(.*)$'
while IFS= read -ru3 line; do
  fields=( $line'' )
  if (( ${#fields[@]} >= 5 )); then
    rest="${fields[4]}" fields[4]=
    while [[ "$rest" =~ $re ]]; do
      fields[4]="${fields[4]}${BASH_REMATCH[1]}${BASH_REMATCH[2]^}"
      rest="${BASH_REMATCH[3]}"
    done
  fi
  printf '%s\n' "${fields[*]}" || exit
done 3< your-file

これらは、入力がユーザーのロケール文字セットでエンコードされた有効なテキストであることを前提としています (たとえば、UTF-8 ロケールでは、上記はéiso8859-1 またはその他の文字セットではなく、UTF-8 (0xc3 0xa9 バイト) でエンコードされています)。bash (およびおそらく awk) のものは、NUL バイトで詰まってしまいます。

perl'sは alnums + アンダースコアなので、のような\w文字列でも違いが見られます。はを大文字にしますが、他の文字列ではを大文字にします。特定の入力に合わせて調整する必要があるかもしれません（文字を組み合わせることも検討してください。これもここで問題を引き起こします）。jean_pierreperlJean_pierreJean_PierreLingua::EN::NameCase perlさらに特殊なケースを処理するためのモジュール。

どのコマンドがどのシステムにデフォルトでインストールされるかという点については、ほとんどのシステムにはperl(Text::CSVモジュールは存在するかもしれませんが、おそらく 1 つではないでしょうLingua::EN::NameCase) と POSIX 準拠の実装awkがありsh、多くのシステム (一部の非 GNU システムも) にはbash(GNU シェル) があり、いくつかのシステムには GNU awk があります (ただし、Ubuntu などの一部の GNU ベースのシステムには存在しません。Ubuntu は少なくとも一部のバージョンでは mawk を優先します)。現在、zshデフォルトでインストールされているシステムはほとんどありません。

CentOS は GNU システムなので、に加えてbash、がgawkデフォルトでインストールされているはずですperl。bashさらに、とgawkも提供されています。shawk

Answer

テキスト処理にシェルループを使用しないテキスト処理ユーティリティを使用します。