Expressão regular para corresponder às aspas duplas de abertura faltando aspas duplas finais

Question

Há um problema ENORME com as especificações fornecidas para os dados. Se "|"for uma string válida, ou mais precisamente, uma string entre aspas pode começar com uma barra vertical, então se uma string com uma aspa final ausente, por exemplo "Account1, tiver como primeiro campo entre aspas um que comece com uma barra vertical, por exemplo "|Mary", então não há como determinarem todos os casosse "|for a cotação final |"Account1||||||||||||"|ou a cotação inicial de |"|Mary"|.

Por exemplo, usando uma versão abreviada (para facilitar a leitura) ligeiramente modificada dos dados, onde todas as strings citadas a partir do segundo começam com uma barra vertical e estão faltando as aspas finais

123|110092|ACCT|"HC Account"|"Account1||||||||||||"|Mary|||"|||||132|"|STE|504|1253

pode-se ver que isso será interpretado incorretamente como

123 110092 ACCT "HC Account" "Account1||||||||||||" Mary "|||||132|" STE 504 1253

Observe que isso é um problema ao usar regexes, Python ou qualquer outra linguagem. O problema do caso geralpodeser "resolvido", mas será complicado e requer o conhecimento de quantos campos existem por linha e a estrutura de dados desses campos. (E sempre pode haver casos extremos deixados de lado.)

Dito isto, uma solução regex que pelo menos detectemaioriacasos de aspas duplas de abertura sem aspas de fechamento requerem uma abordagem de múltiplas passagens, pois a regex precisa capturar todo o texto desde o início de cada linha até a primeira aspa de abertura não processada e sem correspondência. (Caso contrário, como demonstra seu regex, mesmo nos casos mais simples, são encontrados falsos positivos.)

O número de passagens necessárias é o número máximo de campos somente com aspas de abertura para qualquer linha no arquivo inteiro, mais um. O encerramento do processamento de cada arquivo requer a detecção de quando a regex não faz mais modificações no arquivo.

Este é o regex mais simples que funcionará na maioria dos casos:

                    Capturing Group 1           Capturing Group 2
               (All previous valid fields)  (Unclosed opening quote)
  __________________________|_________________________  |
 |                                                    || |
^((?:(?:(?!")[^|\r\n]*|"[^"\r\n]*"(?=$|\|))(?:$|\|))*+)(")
        |____________| |_________________| |______|
              |                 |              |
      Unquoted field  OR  Quoted field     EOL or hypen delimiter

Use-o com esta string de substituição:

$1\\$2

Demonstração

Answer 1