![Анализ данных на основе количества цифр в кавычках](https://rvso.com/image/154465/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85%20%D0%BD%D0%B0%20%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%B5%20%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0%20%D1%86%D0%B8%D1%84%D1%80%20%D0%B2%20%D0%BA%D0%B0%D0%B2%D1%8B%D1%87%D0%BA%D0%B0%D1%85.png)
В настоящее время у меня имеется большой объем данных в текущем формате:
a:7:{i:0;s:4:"9999";i:1;s:4:"10000";i:2;s:4:"10001";i:3;s:4:"10002";i:4;s:4:"10003";i:5;s:4:"10004";i:6;s:4:"989";}
Цифры внутри ""
перед ними имеют s:4
. Для чисел, которые состоят из 3 цифр, это должно быть изменено на , s:3
а цифры, которые состоят из 5 цифр, должны быть s:5
и так далее.
Преобразованные данные должны выглядеть следующим образом:
a:7:{i:0;s:4:"9999";i:1;s:5:"10000";i:2;s:5:"10001";i:3;s:5:"10002";i:4;s:5:"10003";i:5;s:5:"10004";i:6;s:3:"989";}
Каждая строка данных {}
находится на своей собственной строкеdata.txt
решение1
Как насчет
perl -pe 's/s:\d+:"(.*?)"/sprintf("s:%d:\"%s\"",length($1),$1)/ge'
Бывший.
$ echo 'a:7:{i:0;s:4:"9999";i:1;s:4:"10000";i:2;s:4:"10001";i:3;s:4:"10002";i:4;s:4:"10003";i:5;s:4:"10004";i:6;s:4:"989";}' |
perl -pe 's/s:\d+:"(.*?)"/sprintf("s:%d:\"%s\"",length($1),$1)/ge'
a:7:{i:0;s:4:"9999";i:1;s:5:"10000";i:2;s:5:"10001";i:3;s:5:"10002";i:4;s:5:"10003";i:5;s:5:"10004";i:6;s:3:"989";}
Вы можете добавить -i
возможность выполнения замены в файле на месте.
решение2
#!/usr/bin/env bash
IFS=';'
while read LINE
do
set -- $LINE
while [ "$1" ]
do
if [[ $1 =~ ^s:[0-9]+:\".*\"$ ]]; then
s=${1##*:}
printf 's:%d:%s%s' $((${#s}-2)) "$s" "$IFS"
else
printf '%s%s' "$1" "$IFS"
fi
shift
done
printf '\n'
done < data.txt
Этот скрипт устанавливает разделитель полей на символ точки с запятой, а затем выполняет итерацию по строкам data.txt
, разбивая каждую строку на отдельные поля по разделителю точки с запятой. Для полей, начинающихся с s:###:"..."
(для произвольных значений ###
и ...
), скрипт вычисляет длину строки в кавычках и переформатирует поле, используя это значение длины и добавляя разделитель полей в конце. Поля, которые не соответствуют форме, s:###:"..."
выводятся дословно, снова добавляя разделитель полей в конце.
a:7:{i:0;s:4:"9999";i:1;s:5:"10000";i:2;s:5:"10001";i:3;s:5:"10002";i:4;s:5:"10003";i:5;s:5:"10004";i:6;s:3:"989";};