Можно ли удалить определенный повторяющийся символ из списка с помощью регулярных выражений?

Question 1

$ awk '!(/^C\(..[0-9])$/ && seen[$0]++)' file
V(Mn9)
V(C1,H3)
V(Mn6)
V(Mn6)
V(C4,H6)
V(Mn9)
V(Mn9)
V(C1,Mn6)
V(C4,Mn9)
V(Mn6)
V(C1,C4)
C(Mn9)
C(Mn6)
C(C1)
C(C4)
V(C1,H2)
V(Mn9)
V(Mn6)
V(C4,H5)

Вышеуказанное предполагает, что у вас нет пробелов до/после видимых символов в вашем примере ввода. Если они есть, то удалите их, например:

$ awk '{gsub(/^[[:space:]]+|[[:space:]]+$/,"")} !(/^C\(..[0-9])$/ && seen[$0]++)' file
V(Mn9)
V(C1,H3)
V(Mn6)
V(Mn6)
V(C4,H6)
V(Mn9)
V(Mn9)
V(C1,Mn6)
V(C4,Mn9)
V(Mn6)
V(C1,C4)
C(Mn9)
C(Mn6)
C(C1)
C(C4)
V(C1,H2)
V(Mn9)
V(Mn6)
V(C4,H5)

Answer

$ awk '!(/^C\(..[0-9])$/ && seen[$0]++)' file
V(Mn9)
V(C1,H3)
V(Mn6)
V(Mn6)
V(C4,H6)
V(Mn9)
V(Mn9)
V(C1,Mn6)
V(C4,Mn9)
V(Mn6)
V(C1,C4)
C(Mn9)
C(Mn6)
C(C1)
C(C4)
V(C1,H2)
V(Mn9)
V(Mn6)
V(C4,H5)

Вышеуказанное предполагает, что у вас нет пробелов до/после видимых символов в вашем примере ввода. Если они есть, то удалите их, например:

$ awk '{gsub(/^[[:space:]]+|[[:space:]]+$/,"")} !(/^C\(..[0-9])$/ && seen[$0]++)' file
V(Mn9)
V(C1,H3)
V(Mn6)
V(Mn6)
V(C4,H6)
V(Mn9)
V(Mn9)
V(C1,Mn6)
V(C4,Mn9)
V(Mn6)
V(C1,C4)
C(Mn9)
C(Mn6)
C(C1)
C(C4)
V(C1,H2)
V(Mn9)
V(Mn6)
V(C4,H5)

Question 2

Предлагаю использовать sedдля сбора строк в пространстве ожидания, чтобы проверить, появлялись ли они ранее:

 sed -n 'H;G;/^\(C([^)]*)\).*\1 *\n/!P'

Hдобавляет текущую строку в отведенное для нее место
Gдобавляет пространство удержания со всеми линиями, которые мы когда-либо видели, к пространству шаблона
C([^)]*)является одним из таких C(…)шаблонов, ^привязывает его к началу строки и окружает \(…\), поэтому на него можно ссылаться как на \1later. Нам нужен \1 *\nшаблон as с новой строкой (после возможных пробелов), чтобы избежать сопоставления с только что добавленной строкой в конце. Таким образом, весь шаблон /^\(C([^)]*)\).*\1 *\n/соответствует строке с дубликатом C(…), поэтому только если это !не совпадает,
Pвывести все до первой новой строки (= без добавленного пробела), в то время как вывод по умолчанию подавляется -nопцией

Обратите внимание, что в зависимости от sedверсии и размера файла это может привести к сбою, поскольку со временем все строки окажутся в памяти.

Answer

Предлагаю использовать sedдля сбора строк в пространстве ожидания, чтобы проверить, появлялись ли они ранее:

 sed -n 'H;G;/^\(C([^)]*)\).*\1 *\n/!P'

Hдобавляет текущую строку в отведенное для нее место
Gдобавляет пространство удержания со всеми линиями, которые мы когда-либо видели, к пространству шаблона
C([^)]*)является одним из таких C(…)шаблонов, ^привязывает его к началу строки и окружает \(…\), поэтому на него можно ссылаться как на \1later. Нам нужен \1 *\nшаблон as с новой строкой (после возможных пробелов), чтобы избежать сопоставления с только что добавленной строкой в конце. Таким образом, весь шаблон /^\(C([^)]*)\).*\1 *\n/соответствует строке с дубликатом C(…), поэтому только если это !не совпадает,
Pвывести все до первой новой строки (= без добавленного пробела), в то время как вывод по умолчанию подавляется -nопцией

Обратите внимание, что в зависимости от sedверсии и размера файла это может привести к сбою, поскольку со временем все строки окажутся в памяти.

Можно ли удалить определенный повторяющийся символ из списка с помощью регулярных выражений?

решение1

решение2

Связанный контент