Como armazenar informações de arquivo em um array?

Question 1

Primeiro,não façafor file in $(find …). Isso é muito frágil.

Agora, você pode simplificar um pouco seu código fazendo com que find imprima os nomes e tamanhos dos arquivos juntos, usando -printf:

find . -type f -printf '%s.%f/'

Em seguida, você pode usar awkpara processar essa saída para obter tamanhos cumulativos por extensão. Observe que eu costumava .separar o nome do arquivo ( %f) do tamanho ( %s) e adicionei um /depois disso. Portanto, posso usar .como separador de campos em awk. E como os únicos caracteres não permitidos em nomes de arquivos são /ASCII NUL, posso usá-los com segurança /como separador de registros.

Então:

awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next}
  {size["/"] += $1}
END {for (i in size) {print i,"/",size[i]}'

Aqui, estou usando /como índice se não houver extensão.

Combinado:

$ find . -type f -printf '%s.%f/' | awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next}
{size["/"] += $1}
END {for (i in size) {printf "%s/%d\n", i, size[i]}}'
h/780
md/2509
tex/23961
c/13557
//5109
txt/2349291
sh/1166
py/12248

Agora, se suas extensões não contiverem espaços, você poderia simplesmente fazer:

my_array=( $(find . -type f -printf '%s.%f/' | awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next} {size["/"] += $1} END {for (i in size) {printf "%s/%d\n", i, size[i]}}') )

Ou você pode usar a substituição de processo e ler cada entrada em:

my_arr=()
while IFS='' read -r entry
do
    my_arr+=( "$entry" )
done < <(find . -type f -printf '%s.%f/' | awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next} {size["/"] += $1} END {for (i in size) {printf "%s/%d\n", i, size[i]}}')

Como antes:

$ printf "%s\n" "${my_arr[@]}"
h/780
md/2509
tex/23961
c/13557
//5109
txt/2349291
sh/1166
py/12248

Answer