符合開頭雙引號的正規表示式缺少結尾雙引號

Question

您給出的數據規範存在一個巨大的問題。如果"|"是一個有效的字串，或者更準確地說，允許帶引號的字串以垂直線開頭，則如果缺少結尾引號的字串（例如"Account1）具有以豎線開頭的第一個帶引號字段（例如）"|Mary"，則沒有辦法確定在所有情況下如果"|是的結束報價|"Account1||||||||||||"|或開始報價|"|Mary"|。

例如，使用縮短的（為了可讀性）稍微修改過的資料版本，其中從第二個開始的所有帶引號的字串都以管道開頭並且缺少結尾引號

123|110092|ACCT|"HC Account"|"Account1||||||||||||"|Mary|||"|||||132|"|STE|504|1253

可以看出，這將被錯誤地解釋為

123 110092 ACCT "HC Account" "Account1||||||||||||" Mary "|||||132|" STE 504 1253

請注意，無論使用正規表示式、Python 或任何其他語言，這都是一個問題。一般情況問題能可以“解決”，但它會很複雜，並且需要了解每行存在多少個欄位以及這些欄位的資料結構。（而且可能總是會有一些邊緣情況沒有被滿足。）

話雖如此，正規表示式解決方案至少可以偵測到最多左雙引號缺少右引號的情況需要多遍方法，因為正規表示式需要捕捉從每行開頭到第一個未處理的不匹配左引號的所有文字。（否則，正如您的正規表示式所示，即使在最簡單的情況下也會發現誤報。）

所需的傳遞次數是整個文件中任何行的僅左引號欄位的最大數量加一。終止每個文件的處理需要檢測正規表示式何時不再對文件進行進一步修改。

這是適用於大多數情況的最簡單的正規表示式：

                    Capturing Group 1           Capturing Group 2
               (All previous valid fields)  (Unclosed opening quote)
  __________________________|_________________________  |
 |                                                    || |
^((?:(?:(?!")[^|\r\n]*|"[^"\r\n]*"(?=$|\|))(?:$|\|))*+)(")
        |____________| |_________________| |______|
              |                 |              |
      Unquoted field  OR  Quoted field     EOL or hypen delimiter

將其與此替換字串一起使用：

$1\\$2

示範

Answer 1