Wie durchsucht man eine Datei nach Zeilenclustern und löscht dann diese Zeilen?

Question

Eigentlich ist es nicht so schwer, vorausgesetzt, alle Cluster sind M Zeilen lang, M ist fest, Cluster überlappen sich nicht und wir müssen nicht nach dem Anfang eines Clusters suchen. In unserem Fall ist M 6.

sedermöglicht das Abgleichen mit mehreren Zeilen, aber da normalerweise jeweils eine Zeile verarbeitet wird, müssen Sie zusätzliche Zeilen explizit an den Musterbereich anhängen. Dies geschieht mit N:

sed 'N;N;N;N;N; /12:30\n.*\n.*\ntest notification\nnotification\nnotify-send/d'

Der Rest ist Ihr Code ohne ^und $Anker. Die Anker werden oft mit „dem Anfang der Zeile“ bzw. „dem Ende der Zeile“ in Verbindung gebracht; in sedsind sie aber wirklich „… des Strings“. Wenn sedeine Zeile nach der anderen verarbeitet wird, gibt es keinen Unterschied. In unserem Fall sollten wir uns unbedingt merken, dass die Anker „… des Strings“ sind. Sie in die Mitte zu setzen, ergibt keinen Sinn. Es ist nicht so, dass sie nie mit etwas übereinstimmen würden. sedwürde sie gar nicht als Anker interpretieren, sondern als wörtliche ^und $.

Es besteht keine Notwendigkeit für „… der Zeile“-Anker in der Mitte einer Zeichenfolge. Jede Zeile außer der letzten endet direkt vor einem Zeilenumbruchzeichen; jede Zeile außer der ersten beginnt direkt nach einem Zeilenumbruchzeichen. Daher reicht match aus \n.

Vielleicht haben Sie versucht, Anker zu verwenden, um sicherzustellen, dass .*(was gierig ist und Zeilenumbruchzeichen entsprechen kann) nicht mehr als einer Zeile entspricht. Selbst wenn ^und $als „… der Zeile“-Anker fungieren würden, .*wäre es immer noch gierig. Bedenken Sie Folgendes: Der Musterraum in sedenthält nach der letzten Zeile* nie ein Zeilenumbruchzeichen. In unserem Fall wissen wir, dass der Musterraum höchstens sechs Zeilen enthält; und wir haben es \ngenau fünfmal verwendet. Dies garantiert, dass jedes Fragment des regulären Ausdrucks nur mit bestimmten Zeilen in einem Cluster übereinstimmen kann.

Dennoch können Anker hilfreich sein. Der obige Befehl kann einen Cluster löschen, der mit endet notify-send-whatever. $ist der richtige Weg, dies zu verhindern. Es gibt keine andere Zeit als 12:30die, die mit übereinstimmt 12:30; aber es ist anders für 2:30, also kann es im Allgemeinen ^auch nützlich sein. Der verbesserte Befehl:

sed 'N;N;N;N;N; /^12:30\n.*\n.*\ntest notification\nnotification\nnotify-send$/d'

* Das heißt nicht, dass am Ende des Musterbereichs niemals ein Zeilenumbruchzeichen stehen kann. Ein Zeilenumbruchzeichen am Ende zeigt an, dass direkt nach dem Zeichen eine Zeile folgt. Es ist die letzte Zeile und sie ist leer. Und danach folgt kein Zeilenumbruchzeichen, also gilt „niemals ein Zeilenumbruchzeichen nach der letzten Zeile“.

Answer 1

Eigentlich ist es nicht so schwer, vorausgesetzt, alle Cluster sind M Zeilen lang, M ist fest, Cluster überlappen sich nicht und wir müssen nicht nach dem Anfang eines Clusters suchen. In unserem Fall ist M 6.

sedermöglicht das Abgleichen mit mehreren Zeilen, aber da normalerweise jeweils eine Zeile verarbeitet wird, müssen Sie zusätzliche Zeilen explizit an den Musterbereich anhängen. Dies geschieht mit N:

sed 'N;N;N;N;N; /12:30\n.*\n.*\ntest notification\nnotification\nnotify-send/d'

Der Rest ist Ihr Code ohne ^und $Anker. Die Anker werden oft mit „dem Anfang der Zeile“ bzw. „dem Ende der Zeile“ in Verbindung gebracht; in sedsind sie aber wirklich „… des Strings“. Wenn sedeine Zeile nach der anderen verarbeitet wird, gibt es keinen Unterschied. In unserem Fall sollten wir uns unbedingt merken, dass die Anker „… des Strings“ sind. Sie in die Mitte zu setzen, ergibt keinen Sinn. Es ist nicht so, dass sie nie mit etwas übereinstimmen würden. sedwürde sie gar nicht als Anker interpretieren, sondern als wörtliche ^und $.

Es besteht keine Notwendigkeit für „… der Zeile“-Anker in der Mitte einer Zeichenfolge. Jede Zeile außer der letzten endet direkt vor einem Zeilenumbruchzeichen; jede Zeile außer der ersten beginnt direkt nach einem Zeilenumbruchzeichen. Daher reicht match aus \n.

Vielleicht haben Sie versucht, Anker zu verwenden, um sicherzustellen, dass .*(was gierig ist und Zeilenumbruchzeichen entsprechen kann) nicht mehr als einer Zeile entspricht. Selbst wenn ^und $als „… der Zeile“-Anker fungieren würden, .*wäre es immer noch gierig. Bedenken Sie Folgendes: Der Musterraum in sedenthält nach der letzten Zeile* nie ein Zeilenumbruchzeichen. In unserem Fall wissen wir, dass der Musterraum höchstens sechs Zeilen enthält; und wir haben es \ngenau fünfmal verwendet. Dies garantiert, dass jedes Fragment des regulären Ausdrucks nur mit bestimmten Zeilen in einem Cluster übereinstimmen kann.

Dennoch können Anker hilfreich sein. Der obige Befehl kann einen Cluster löschen, der mit endet notify-send-whatever. $ist der richtige Weg, dies zu verhindern. Es gibt keine andere Zeit als 12:30die, die mit übereinstimmt 12:30; aber es ist anders für 2:30, also kann es im Allgemeinen ^auch nützlich sein. Der verbesserte Befehl:

sed 'N;N;N;N;N; /^12:30\n.*\n.*\ntest notification\nnotification\nnotify-send$/d'

* Das heißt nicht, dass am Ende des Musterbereichs niemals ein Zeilenumbruchzeichen stehen kann. Ein Zeilenumbruchzeichen am Ende zeigt an, dass direkt nach dem Zeichen eine Zeile folgt. Es ist die letzte Zeile und sie ist leer. Und danach folgt kein Zeilenumbruchzeichen, also gilt „niemals ein Zeilenumbruchzeichen nach der letzten Zeile“.

Wie durchsucht man eine Datei nach Zeilenclustern und löscht dann diese Zeilen?

Antwort1

verwandte Informationen