終了二重引用符がない開始二重引用符に一致する正規表現

Question

データに指定した仕様には、大きな問題が 1 つあります。が"|"有効な文字列である場合、またはより正確には、引用符で囲まれた文字列はパイプで始まることが許可されている場合、たとえばのように、終了引用符のない文字列の"Account1最初の引用符フィールドがパイプで始まる場合、たとえばのよう"|Mary"に、それを判別する方法がありません。いずれの場合もが"|の終了引用符であるか|"Account1||||||||||||"|、の開始引用符であるか|"|Mary"|。

たとえば、読みやすくするために、引用符で囲まれた2番目以降の文字列はすべてパイプで始まり、最後の引用符が省略されている、データの短縮版（読みやすくするために）を少し変更したバージョンを使用すると、

123|110092|ACCT|"HC Account"|"Account1||||||||||||"|Mary|||"|||||132|"|STE|504|1253

これは次のように誤って解釈されることがわかる。

123 110092 ACCT "HC Account" "Account1||||||||||||" Mary "|||||132|" STE 504 1253

これは正規表現、Python、その他の言語のいずれを使用しても問題となることに注意してください。一般的なケースの問題できる「解決」される可能性はありますが、複雑であり、行ごとにいくつのフィールドが存在するか、およびそれらのフィールドのデータ構造に関する知識が必要になります。(そして、対応されていないエッジケースが常に存在する可能性があります。)

そうは言っても、少なくとも検出できる正規表現ソリューションはほとんど開き二重引用符に閉じ引用符がない場合、正規表現は各行の先頭から最初の未処理の一致しない開き引用符までのすべてのテキストをキャプチャする必要があるため、マルチパスアプローチが必要になります。(そうしないと、正規表現が示すように、最も単純なケースでも誤検知が見つかります。)

必要なパスの数は、ファイル全体の任意の行の開始引用符のみのフィールドの最大数に 1 を加えた数です。各ファイルの処理を終了するには、正規表現がファイルにそれ以上変更を加えなくなったことを検出する必要があります。

これは、ほとんどの場合に機能する最も単純な正規表現です。

                    Capturing Group 1           Capturing Group 2
               (All previous valid fields)  (Unclosed opening quote)
  __________________________|_________________________  |
 |                                                    || |
^((?:(?:(?!")[^|\r\n]*|"[^"\r\n]*"(?=$|\|))(?:$|\|))*+)(")
        |____________| |_________________| |______|
              |                 |              |
      Unquoted field  OR  Quoted field     EOL or hypen delimiter

次の置換文字列と共に使用します:

$1\\$2

デモ

Answer 1