正規表現 - SQL操作

Question 1

使用しているのでfedora、GNU sedこれは動作するはずです:

s="  shipname       NVARCHAR(40) NOT NULL,"
echo "$s" | sed -E '/NOT/{s/^  ([[:lower:]]+)\s*NVARCHAR\(([[:digit:]]+)\) NOT NULL,$/\1 TEXT NOT NULL CHECK \(LENGTH\(\1\) <= \2\),/;q0} ; s/^  ([[:lower:]]+)/\1 TEXT NULL,/'

これは偽の if をエミュレートします。

if:

db 構造内に ( ) が見つかった場合、最初の sed コマンドが実行され、2 番目のステートメントを実行せずに quit ( )が実行されますNOT。/NOT/q0

else:

キーワードが見つからないNOTため、2 番目のインスタンスが実行されます。

2番目の要件:

sed "s/N'/'/g"

をグローバルに検索しN'、のみに置き換えます。コマンドライン区切り文字をに置き換えると、エスケープ処理をあまり行わずに、よりクリーンにできるので'便利です。'"sed

最初のものをsedファイル内に配置します。

#!/bin/sed -Ef

# If a NOT is found execute this:
# capture the column name and the value of this
/NOT/ {
    s/^  ([[:lower:]]+)\s*NVARCHAR\(([[:digit:]]+)\) NOT NULL,$/\1 TEXT NOT NULL CHECK \(LENGTH\(\1\) <= \2\),/

    # Quit without execute the other statement
    q0
}

# Else: If we are here then the database
# structure does not contains a length for the column;
# so it should be NULL
s/^  ([[:lower:]]+)/\1 TEXT NULL,/

この{コマンドは、複数のコマンドをグループ化するために使用されますsed。

は終了するために使用されるコマンドqです。ここでは、最初のテストが成功した場合、最後の行に到達する前に強制的に終了するために使用しています。quitsedsed

Answer

使用しているのでfedora、GNU sedこれは動作するはずです:

s="  shipname       NVARCHAR(40) NOT NULL,"
echo "$s" | sed -E '/NOT/{s/^  ([[:lower:]]+)\s*NVARCHAR\(([[:digit:]]+)\) NOT NULL,$/\1 TEXT NOT NULL CHECK \(LENGTH\(\1\) <= \2\),/;q0} ; s/^  ([[:lower:]]+)/\1 TEXT NULL,/'

これは偽の if をエミュレートします。

if:

db 構造内に ( ) が見つかった場合、最初の sed コマンドが実行され、2 番目のステートメントを実行せずに quit ( )が実行されますNOT。/NOT/q0

else:

キーワードが見つからないNOTため、2 番目のインスタンスが実行されます。

2番目の要件:

sed "s/N'/'/g"

をグローバルに検索しN'、のみに置き換えます。コマンドライン区切り文字をに置き換えると、エスケープ処理をあまり行わずに、よりクリーンにできるので'便利です。'"sed

最初のものをsedファイル内に配置します。

#!/bin/sed -Ef

# If a NOT is found execute this:
# capture the column name and the value of this
/NOT/ {
    s/^  ([[:lower:]]+)\s*NVARCHAR\(([[:digit:]]+)\) NOT NULL,$/\1 TEXT NOT NULL CHECK \(LENGTH\(\1\) <= \2\),/

    # Quit without execute the other statement
    q0
}

# Else: If we are here then the database
# structure does not contains a length for the column;
# so it should be NULL
s/^  ([[:lower:]]+)/\1 TEXT NULL,/

この{コマンドは、複数のコマンドをグループ化するために使用されますsed。

は終了するために使用されるコマンドqです。ここでは、最初のテストが成功した場合、最後の行に到達する前に強制的に終了するために使用しています。quitsedsed

Question 2

すでに答えは出ていますが、解決策をコピーするのではなく、そこから学べるように、あなた自身のアプローチで何が間違っていたのかを追加したいと思います。

拡張正規表現を使用していますが、-Eのオプションを指定するのを忘れましたsed。
識別子を再利用したいのですが、()
あなたはEREグループと文字通りのグループを混同しているようです()。おそらくsed -E 's/^ ([a-z]+)[ ]+NVARCHAR$([0-9]+)$ NOT NULL/TEXT NOT NULL CHECK $LENGTH\((\1) <= (\2)$/g'
スペースまでの最初の部分は置換では表示されません。また、それをグループ化して置換の参照として使用する必要があります。sed -E 's/^( ([a-z]+)[ ]+)NVARCHAR$([0-9]+)$ NOT NULL/\1TEXT NOT NULL CHECK $LENGTH\((\2) <= (\3)$/g'
[ ]+と同じです+。エラーではありませんが、読みにくくなります。
オプションは不要です。パターン内にまたはのgようなアンカーがある場合、複数の置換は不可能です。^$
オプションのNOT`sed -E 's/^( ([az]+) +)NVARCHAR(([0-9]+)) (NOT )?NULL/\1TEXT \4NULL CHECK (LENGTH((\2) <= (\3))/' を作成することで、複数の式を回避できます。
一方、チェックを省略したい場合は、別の置換で省略できます。s/^( [a-z]+ +)NVARCHAR$([0-9]+)$ NULL/\1TEXT NULL/
s/N\'\'/g検索パターンと置換の間に区切り文字がありません:s/N\'/\'/g

結局、

sed -E 's/^(  ([a-z]+) +)NVARCHAR\(([0-9]+)\) NOT NULL/\1TEXT NOT NULL CHECK \(LENGTH\((\2) <= (\3)\)/
  s/^(  [a-z]+ +)NVARCHAR\(([0-9]+)\) NULL/\1TEXT NULL/
  s/N\'/\'/g'

Answer

すでに答えは出ていますが、解決策をコピーするのではなく、そこから学べるように、あなた自身のアプローチで何が間違っていたのかを追加したいと思います。

拡張正規表現を使用していますが、-Eのオプションを指定するのを忘れましたsed。
識別子を再利用したいのですが、()
あなたはEREグループと文字通りのグループを混同しているようです()。おそらくsed -E 's/^ ([a-z]+)[ ]+NVARCHAR$([0-9]+)$ NOT NULL/TEXT NOT NULL CHECK $LENGTH\((\1) <= (\2)$/g'
スペースまでの最初の部分は置換では表示されません。また、それをグループ化して置換の参照として使用する必要があります。sed -E 's/^( ([a-z]+)[ ]+)NVARCHAR$([0-9]+)$ NOT NULL/\1TEXT NOT NULL CHECK $LENGTH\((\2) <= (\3)$/g'
[ ]+と同じです+。エラーではありませんが、読みにくくなります。
オプションは不要です。パターン内にまたはのgようなアンカーがある場合、複数の置換は不可能です。^$
オプションのNOT`sed -E 's/^( ([az]+) +)NVARCHAR(([0-9]+)) (NOT )?NULL/\1TEXT \4NULL CHECK (LENGTH((\2) <= (\3))/' を作成することで、複数の式を回避できます。
一方、チェックを省略したい場合は、別の置換で省略できます。s/^( [a-z]+ +)NVARCHAR$([0-9]+)$ NULL/\1TEXT NULL/
s/N\'\'/g検索パターンと置換の間に区切り文字がありません:s/N\'/\'/g

結局、

sed -E 's/^(  ([a-z]+) +)NVARCHAR\(([0-9]+)\) NOT NULL/\1TEXT NOT NULL CHECK \(LENGTH\((\2) <= (\3)\)/
  s/^(  [a-z]+ +)NVARCHAR\(([0-9]+)\) NULL/\1TEXT NULL/
  s/N\'/\'/g'

Question 3

sedawkはいくつかのタスクには最適ですが、他のタスクでは、条件文や printf などを備えたorのようなフル機能の言語が必要ですperl。また、正規表現と RPN 計算機の醜いハイブリッドのようには読めない言語が望ましいです :-)。

#!/usr/bin/perl
use strict;

while(<>) {
  # print verbatim any lines that don't define an identifier
  unless (m/^\s+\S/) { print; next };
  # print a blank line before certain identifiers
  print "\n" if m/birthdate|address|phone/;

  # various regex transformations for IDENTITY and VARCHAR fields
  s/\s+NOT NULL IDENTITY/ GENERATED BY DEFAULT AS IDENTITY/;
  s/([[:lower:]]+)\s+NVARCHAR\((\d+)\) NOT NULL/$1 TEXT NOT NULL CHECK (LENGTH($1) <= $2)/;
  s/\s+NVARCHAR\((\d+)\)\s+NULL/ TEXT NULL/;

  # remove length checks from NULL definitions
  s/\s+CHECK.*/,/ if /(?<!NOT) NULL/;

  # add a comma at the end of the mgrid line if it's not there
  s/\s*$/,/ if /mgrid/ && ! /,\s*$/;

  # hacky crap to nicely format "TYPE (NOT )?NULL" output.
  my @F = split;
  my $identifier = shift @F;
  my $type = shift @F;
  $type .= " " . shift @F if ($F[0] =~ /NOT/);
  $type = sprintf "%-8s", $type;
  $type .= " " . shift @F if ($F[0] =~ /NULL/);

  printf "  %-15s %-13s%s\n", $identifier, $type, join(" ",'',@F);

  # print the test_field definition after mgrid
  if ($identifier eq 'mgrid') {
    print "  test_field      TEXT     NULL CHECK (LENGTH(test_field) <= 25)\n";
  };
}

これは、入力を (大まかに) 希望する出力に変換するかなり強引な方法です。いくつかの正規表現変換と、「フィールド」をうまく整列させるコードがあります。また、空白行と test_field を適切な場所に追加するための追加の print ステートメントがいくつかあります。そのため、一般的に役立つわけではありませんが、必要に応じて他の SQL 変換に合わせて調整できます。
スクリプトは、質問の説明を実装します。「望ましい出力」に表示される内容ではありません (たとえば、とは両方ともregionNULLpostalcodeフィールドであるため、長さチェックは行われません)。

出力：

CREATE TABLE employee
(
  empid           INT           GENERATED BY DEFAULT AS IDENTITY,
  lastname        TEXT NOT NULL CHECK (LENGTH(lastname) <= 20),
  firstname       TEXT NOT NULL CHECK (LENGTH(firstname) <= 10),
  title           TEXT     NULL,
  titleofcourtesy TEXT     NULL,

  birthdate       DATE NOT NULL,
  hiredate        DATE NOT NULL,

  address         TEXT NOT NULL CHECK (LENGTH(address) <= 60),
  city            TEXT NOT NULL CHECK (LENGTH(city) <= 15),
  region          TEXT     NULL,
  postalcode      TEXT     NULL,
  country         TEXT NOT NULL CHECK (LENGTH(country) <= 15),

  phone           TEXT NOT NULL CHECK (LENGTH(phone) <= 24),
  mgrid           INT      NULL,
  test_field      TEXT     NULL CHECK (LENGTH(test_field) <= 25)

);

以下は、スクリプトの出力と目的の出力の差分です (コメントと余分なスペース文字を削除してクリーンアップした後)。

-  region          TEXT     NULL CHECK (LENGTH(region) <= 15),
-  postalcode      TEXT     NULL CHECK (LENGTH(postalcode) <= 10),
+  region          TEXT     NULL,
+  postalcode      TEXT     NULL,

他のコメント：

おそらくあなたPRIMARY KEY GENERATED BY DEFAULT AS IDENTITYはempid
postgresql には VARCHAR(n) データ型があり、これはおそらく TEXT よりも適切で、変換がはるかに簡単です。VARCHARs/NVARCHAR/VARCHAR/は固定長なので、a) 長さ制約のチェックが不要で、b) インデックス作成と検索が高速です。
フィールドを NULL にすることがデフォルトなので、明示的にそのように定義する必要はありません。

Answer

sedawkはいくつかのタスクには最適ですが、他のタスクでは、条件文や printf などを備えたorのようなフル機能の言語が必要ですperl。また、正規表現と RPN 計算機の醜いハイブリッドのようには読めない言語が望ましいです :-)。

#!/usr/bin/perl
use strict;

while(<>) {
  # print verbatim any lines that don't define an identifier
  unless (m/^\s+\S/) { print; next };
  # print a blank line before certain identifiers
  print "\n" if m/birthdate|address|phone/;

  # various regex transformations for IDENTITY and VARCHAR fields
  s/\s+NOT NULL IDENTITY/ GENERATED BY DEFAULT AS IDENTITY/;
  s/([[:lower:]]+)\s+NVARCHAR\((\d+)\) NOT NULL/$1 TEXT NOT NULL CHECK (LENGTH($1) <= $2)/;
  s/\s+NVARCHAR\((\d+)\)\s+NULL/ TEXT NULL/;

  # remove length checks from NULL definitions
  s/\s+CHECK.*/,/ if /(?<!NOT) NULL/;

  # add a comma at the end of the mgrid line if it's not there
  s/\s*$/,/ if /mgrid/ && ! /,\s*$/;

  # hacky crap to nicely format "TYPE (NOT )?NULL" output.
  my @F = split;
  my $identifier = shift @F;
  my $type = shift @F;
  $type .= " " . shift @F if ($F[0] =~ /NOT/);
  $type = sprintf "%-8s", $type;
  $type .= " " . shift @F if ($F[0] =~ /NULL/);

  printf "  %-15s %-13s%s\n", $identifier, $type, join(" ",'',@F);

  # print the test_field definition after mgrid
  if ($identifier eq 'mgrid') {
    print "  test_field      TEXT     NULL CHECK (LENGTH(test_field) <= 25)\n";
  };
}

これは、入力を (大まかに) 希望する出力に変換するかなり強引な方法です。いくつかの正規表現変換と、「フィールド」をうまく整列させるコードがあります。また、空白行と test_field を適切な場所に追加するための追加の print ステートメントがいくつかあります。そのため、一般的に役立つわけではありませんが、必要に応じて他の SQL 変換に合わせて調整できます。
スクリプトは、質問の説明を実装します。「望ましい出力」に表示される内容ではありません (たとえば、とは両方ともregionNULLpostalcodeフィールドであるため、長さチェックは行われません)。

出力：

CREATE TABLE employee
(
  empid           INT           GENERATED BY DEFAULT AS IDENTITY,
  lastname        TEXT NOT NULL CHECK (LENGTH(lastname) <= 20),
  firstname       TEXT NOT NULL CHECK (LENGTH(firstname) <= 10),
  title           TEXT     NULL,
  titleofcourtesy TEXT     NULL,

  birthdate       DATE NOT NULL,
  hiredate        DATE NOT NULL,

  address         TEXT NOT NULL CHECK (LENGTH(address) <= 60),
  city            TEXT NOT NULL CHECK (LENGTH(city) <= 15),
  region          TEXT     NULL,
  postalcode      TEXT     NULL,
  country         TEXT NOT NULL CHECK (LENGTH(country) <= 15),

  phone           TEXT NOT NULL CHECK (LENGTH(phone) <= 24),
  mgrid           INT      NULL,
  test_field      TEXT     NULL CHECK (LENGTH(test_field) <= 25)

);

以下は、スクリプトの出力と目的の出力の差分です (コメントと余分なスペース文字を削除してクリーンアップした後)。

-  region          TEXT     NULL CHECK (LENGTH(region) <= 15),
-  postalcode      TEXT     NULL CHECK (LENGTH(postalcode) <= 10),
+  region          TEXT     NULL,
+  postalcode      TEXT     NULL,

他のコメント：

おそらくあなたPRIMARY KEY GENERATED BY DEFAULT AS IDENTITYはempid
postgresql には VARCHAR(n) データ型があり、これはおそらく TEXT よりも適切で、変換がはるかに簡単です。VARCHARs/NVARCHAR/VARCHAR/は固定長なので、a) 長さ制約のチェックが不要で、b) インデックス作成と検索が高速です。
フィールドを NULL にすることがデフォルトなので、明示的にそのように定義する必要はありません。

正規表現 - SQL操作

答え1

答え2

答え3

他のコメント：

関連情報