Estoy trabajando en un proyecto en el que necesito eliminar todo el formato de un archivo de texto, incluidos los espacios en blanco y los saltos de línea, y luego reemplazar los dos puntos con tuberías. He logrado algunos avances pero no puedo encontrar una manera de enmascarar las partes que deben ignorarse. Soy nuevo en sed y solo estoy en el nivel principiante con las secuencias de comandos Bash y, de hecho, no estoy del todo seguro de que sed sea la herramienta adecuada para el trabajo (¿tal vez vi? Normalmente uso Nano). El archivo que estoy intentando formatear es similar a este
== LUN mysql05-dbdat02 ==
LUNName: mysql05-dbdat02
CollectionStartTime: 2012-09-20T15:43:03-04:00
CollectionEndTime: 2012-09-20T15:43:34-04:00
Capacity
CurrentCapacity: 512
IOOperations
Reads: 100
Writes: 0
ReadsPerSecond: 0.000000
WritesPerSecond: 0.000000
ReadMBPerSecond: 0.000
WriteMBPerSecond: 0.000
TotalMBPerSecond: 0.000
NonOptimizedIOPerSecond: 0.000000
CacheHitPercentage: 0.000
PerformanceMetrics
TotalIOsPerSecond: 0.000
ReadIOsPerSecond: 0.000
WriteIOsPerSecond: 0.000
TotalMBPerSecond: 0.000
ReadMBPerSecond: 0.000
WriteMBPerSecond: 0.000
Performance
== LUN mysql05-dbdat02 ==
LUNName: mysql05-dbdat02
CollectionStartTime: 2012-09-20T15:43:03-04:00
CollectionEndTime: 2012-09-20T15:43:34-04:00
Capacity
CurrentCapacity: 512
IOOperations
Reads: 100
Writes: 0
ReadsPerSecond: 0.000000
WritesPerSecond: 0.000000
ReadMBPerSecond: 0.000
WriteMBPerSecond: 0.000
TotalMBPerSecond: 0.000
NonOptimizedIOPerSecond: 0.000000
CacheHitPercentage: 0.000
PerformanceMetrics
TotalIOsPerSecond: 0.000
ReadIOsPerSecond: 0.000
WriteIOsPerSecond: 0.000
TotalMBPerSecond: 0.000
ReadMBPerSecond: 0.000
WriteMBPerSecond: 0.000
Performance
y la salida debe ser algo como esto,
cm-data-unity01|LUNNam=cm-data-unity01|CollectionStartTim=2012-09-20T15:43:03-04:00|CollectionEndTim=2012-09-20T15:43:34-04:00|Capacity|CurrentCapacit=2048|IOOperations|Read=10|Write=90|ReadsPerSecon=8.000000|WritesPerSecon=76.000000|ReadMBPerSecon=0.430|WriteMBPerSecon=0.542|TotalMBPerSecon=0.973|NonOptimizedIOPerSecon=85.000000|CacheHitPercentag=0.000|PerformanceMetrics|TotalIOsPerSecon=84.000|ReadIOsPerSecon=8.000|WriteIOsPerSecon=76.000|TotalMBPerSecon=0.973|ReadMBPerSecon=0.430|WriteMBPerSecon=0.542|Performance|
o todo en una sola línea.
He escrito un script Bash muy simple para formatearlo, así
# Author Christopher George Bollinger
# Comments: This script will modify the snippet.txt file.
# This script is meant to, first, take a specific bit of unformatted data and remove all line breaks and non-printable characters.
# Following this, the script is to replace any appropriate colons (those being used as delimiters) and replace them with the equals (=) character.
#!/bin/bash
echo "This script will remove line breaks, remove non-printable characters, and will replace colons used as field delimiters with the equals '(=)' character."
cp snippet.txt snippetwork.txt
RmLB ()
{
tr -d '\n' < snippetwork.txt > snippetwork1.txt
}
RmNonPrint ()
{
tr -cd "[:print:]" < snippetwork1.txt > snippetwork2.txt
}
RplcW ()
{
sed 's/: /=/g' snippetwork2.txt > snippetwork3.txt
}
RmWtSpc ()
{
tr -s ' ' '|' < snippetwork3.txt > snippetgood.txt
sed 'd/(?:[a-z]=) /'
}
QuChek ()
{
cat snippetgood.txt
read -p "Is this satisfactory? (Y/n)" Choice
case $Choice in
Y|y)
mv snippetgood.txt snippet.txt
rm -f snippetwork*
rm -f snippetgood.txt
;;
N|n)
exit
;;
*)
echo "Invalid Input."
;;
esac
}
read -p "Would you like to begin? (Y/n)" YorN
case $YorN in
Y|y)
RmLB
RmNonPrint
RplcW
RmWtSpc
QuChek
;;
N|n)
exit
;;
*)
echo "Invalid Selection"
;;
esac
Qué funciones, excepto la salida, no son del todo correctas, da:
==|LUN|mysql05-dbdat02|==|LUNName=|mysql05-dbdat02|CollectionStartTime=|2012-09-20T15:43:03-04:00|CollectionEndTime=|2012-09-20T15:43:34-04:00|Capacity|CurrentCapacity=|512|IOOperations|Reads=|100|Writes=|0|ReadsPerSecond=|0.000000|WritesPerSecond=|0.000000|ReadMBPerSecond=|0.000|WriteMBPerSecond=|0.000|TotalMBPerSecond=|0.000|NonOptimizedIOPerSecond=|0.000000|CacheHitPercentage=|0.000|PerformanceMetrics|TotalIOsPerSecond=|0.000|ReadIOsPerSecond=|0.000|WriteIOsPerSecond=|0.000|TotalMBPerSecond=|0.000|ReadMBPerSecond=|0.000|WriteMBPerSecond=|0.000|Performance|==|LUN|mysql05-dbdat02|==|LUNName=|mysql05-dbdat02|CollectionStartTime=|2012-09-20T15:43:03-04:00|CollectionEndTime=|2012-09-20T15:43:34-04:00|Capacity|CurrentCapacity=|512|IOOperations|Reads=|100|Writes=|0|ReadsPerSecond=|0.000000|WritesPerSecond=|0.000000|ReadMBPerSecond=|0.000|WriteMBPerSecond=|0.000|TotalMBPerSecond=|0.000|NonOptimizedIOPerSecond=|0.000000|CacheHitPercentage=|0.000|PerformanceMetrics|TotalIOsPerSecond=|0.000|ReadIOsPerSecond=|0.000|WriteIOsPerSecond=|0.000|TotalMBPerSecond=|0.000|ReadMBPerSecond=|0.000|WriteMBPerSecond=|0.000|Performance|
el problema son las tuberías que aparecen siguiendo los signos iguales. Si alguien pudiera indicarme la dirección correcta para hacerlo bien, o incluso un recurso en línea para obtener alguna aclaración, estaría inmensamente agradecido.
Lo curioso es que el final de esto es que, si bien la solicitud inmediata es formatear como en el ejemplo anterior, introducir esto en una herramienta de gráficos CLI de Unix (supongo que es gnuplot). Por lo que tengo entendido, gnuplot requiere que el formato sea en columnas. Como mencioné, este es un territorio nuevo para mí y agradecería mucho cualquier consejo que me dieran.
Respuesta1
No estoy muy seguro de lo que estás intentando hacer. Usando su primer archivo de entrada, creo esta salida:
LUNName=mysql05-dbdat02|CollectionStartTime=2012-09-20T15:43:03-04:00|CollectionEndTime=2012-09-20T15:43:34-04:00|Capacity|CurrentCapacity=512|IOOperations|Reads=100|Writes=0|ReadsPerSecond=0.000000|WritesPerSecond=0.000000|ReadMBPerSecond=0.000|WriteMBPerSecond=0.000|TotalMBPerSecond=0.000|NonOptimizedIOPerSecond=0.000000|CacheHitPercentage=0.000|PerformanceMetrics|TotalIOsPerSecond=0.000|ReadIOsPerSecond=0.000|WriteIOsPerSecond=0.000|TotalMBPerSecond=0.000|ReadMBPerSecond=0.000|WriteMBPerSecond=0.000|Performance|
Con este perl one liner:
perl -pe 's/\n/|/;s/\s*//g; s/:/=/; END{print "\n"}' file
También puedes hacerlo con esto:
sed -r 's/\s*//g; s/:/=/;' file | tr '\n' '|'
Respuesta2
sed -e ':a;N;$!ba;s/\n/\|/g;s/: */=/g;s/ *//g' '<yourinputfilehere>' > '<youroutputfilehere>'
explicación: la primera parte: :a;N;$!ba;s/\n/\|/g
elimina todos los saltos de línea y los reemplaza con | Una mejor explicación sobre la sintaxis está aquí:https://stackoverflow.com/questions/1251999/sed-how-can-i-replace-a-newline-n
la segunda parte, ;s/: */==/g
reemplaza todos los dos puntos seguidos de uno o más espacios con ==
la tercera parte ;s/ *//g
elimina todos los espacios singulares o múltiples.
Obviamente, su archivo de entrada y su archivo de salida deben ser reemplazados. Si desea evitar la salida de depuración en su archivo de salida, puede agregar 2> '/dev/null'
al final
Realmente no entendí cuál era tu plan con tus comentarios, pero deberías poder implementarlo desde aquí.