Expresión regular para coincidir con las comillas dobles iniciales a las que les falta una comilla doble final

Question

Hay un ENORME problema con las especificaciones que ha proporcionado para los datos. Si "|"es una cadena válida, o más precisamente, una cadena entre comillas puede comenzar con una barra vertical, entonces si una cadena a la que le falta una comilla final, por ejemplo "Account1, tiene como primer campo entre comillas uno que comienza con una barra vertical, por ejemplo "|Mary", entonces no hay manera de determinaren todos los casossi "|es la cotización final |"Account1||||||||||||"|o la cotización inicial de |"|Mary"|.

Por ejemplo, usar una versión abreviada (para facilitar la lectura) ligeramente modificada de los datos, donde todas las cadenas entre comillas desde la segunda en adelante comienzan con una barra vertical y les faltan las comillas finales.

123|110092|ACCT|"HC Account"|"Account1||||||||||||"|Mary|||"|||||132|"|STE|504|1253

Se puede ver que esto se interpretará incorrectamente como

123 110092 ACCT "HC Account" "Account1||||||||||||" Mary "|||||132|" STE 504 1253

Tenga en cuenta que esto es un problema ya sea que use expresiones regulares, Python o cualquier otro lenguaje. El problema general del casopoder"resolverse", pero será complicado y requerirá el conocimiento de cuántos campos existen por fila y la estructura de datos de esos campos. (Y es posible que siempre queden casos extremos sin atender).

Dicho esto, una solución de expresiones regulares que al menos detectemayoríaLos casos en los que a una comilla doble de apertura le falta una comilla de cierre requieren un enfoque de varias pasadas, ya que la expresión regular necesita capturar todo el texto desde el inicio de cada línea hasta la primera comilla de apertura no procesada y no coincidente. (De lo contrario, como lo demuestra su expresión regular, incluso en los casos más simples se encuentran falsos positivos).

La cantidad de pases requeridos es la cantidad máxima de campos solo para comillas iniciales para cualquier fila en todo el archivo, más uno. Para finalizar el procesamiento de cada archivo es necesario detectar cuándo la expresión regular no realiza más modificaciones en el archivo.

Esta es la expresión regular más simple que funcionará en la mayoría de los casos:

                    Capturing Group 1           Capturing Group 2
               (All previous valid fields)  (Unclosed opening quote)
  __________________________|_________________________  |
 |                                                    || |
^((?:(?:(?!")[^|\r\n]*|"[^"\r\n]*"(?=$|\|))(?:$|\|))*+)(")
        |____________| |_________________| |______|
              |                 |              |
      Unquoted field  OR  Quoted field     EOL or hypen delimiter

Úselo con esta cadena de reemplazo:

$1\\$2

Manifestación

Answer 1

Hay un ENORME problema con las especificaciones que ha proporcionado para los datos. Si "|"es una cadena válida, o más precisamente, una cadena entre comillas puede comenzar con una barra vertical, entonces si una cadena a la que le falta una comilla final, por ejemplo "Account1, tiene como primer campo entre comillas uno que comienza con una barra vertical, por ejemplo "|Mary", entonces no hay manera de determinaren todos los casossi "|es la cotización final |"Account1||||||||||||"|o la cotización inicial de |"|Mary"|.