existe algo como o gráfico de caule e folhas para séries temporais?

existe algo como o gráfico de caule e folhas para séries temporais?

Ao querer dar uma olhada rápida na distribuição de uma sequência de valores, o gráfico de caule e folhas é uma ferramenta incrivelmente simples, mas poderosa. Leva alguns minutos para ensinar o computador a desenhá-lo, ou você pode fazê-lo trivialmente à mão.

O único problema é que não preserva a ordem dos valores, que às vezes contém informações úteis. Tenho tentado pensar em uma maneira igualmente simples de traçar uma série temporal com ordem preservada, mas não consegui encontrar nada.

A solução óbvia de fazer um gráfico de série temporal regular com tempo no eixo X e valores no eixo Y sofre do problema de precisar de muito trabalho preparatório antes de entrar na renderização real. Não é nem de longe tão simples conceitualmente quanto o gráfico de caule e folhas.

Existe algo assim? Ou o que estou pedindo é impossível?

Ah, e um requisito importante que quase esqueci: gostaria que isso fosse facilmente imprimível em um terminal com buffer de linha...


A razão pela qual pergunto aqui é porque meu principal caso de uso para isso são métricas de saúde e outras amostras de servidores. Ao descartar as causas de um sistema com defeito, seria bom obter rapidamente uma intuição sobre como algum subsistema se comportou ao longo do tempo.

Responder1

Não tenho certeza se isso é exatamente o que estou procurando, pois é um pouco complexo, mas atendeu às minhas necessidades até agora:

Comecei a trabalhar com temperaturas, que estavam convenientemente na faixa de 25 a 60 °C, para que eu pudesse simplesmente replicar uma sequência de *para criar uma espécie de gráfico de barras delas:

$ cat temps2.txt | perl -pe 'print "*" x $_ . " ";'
******************************************** 44.0
*************************************************** 51.0
******************************************* 43.0
********************************************* 45.0
************************************** 38.0
**************************************** 40.0
*********************************** 35.0
************************************ 36.0
******************************** 32.0
******************************** 32.0
******************************* 31.0
******************************* 31.0
******************************** 32.0
******************************** 32.0
******************************* 31.0
************************************ 36.0
******************************** 32.0
************************************ 36.0
******************************* 31.0
*********************************** 35.0
************************************ 36.0
************************************ 36.0
********************************* 33.0
******************************* 31.0
******************************** 32.0
******************************* 31.0
********************************* 33.0
******************************** 32.0
******************************** 32.0
************************************ 36.0

Claro, isso só funciona com valores que estão em uma faixa conveniente, mas é estupidamente eficaz quando estão – e quando não estão, basta adicionar algumas manipulações aritméticas à $_variável que indica o número de repetições.

Por exemplo, o comprimento médio da fila de execução do processador a cada segundo (que para mim está na faixa de 0 a 8) pode ser multiplicado por 10 para obter mudanças visíveis na saída:

$ cat runq.txt | perl -pe 'print "*" x ($_ * 10) . " ";'
 0
 0
 0
 0
******************** 2
********** 1
******************** 2
**************************************** 4
****************************** 3
**************************************** 4
****************************** 3
****************************** 3
******************** 2
******************** 2
********** 1
********** 1
********** 1
************************************************************ 6
********** 1
********** 1
********** 1
 0
 0

Isso absolutamente teria satisfeito minhas necessidades.


Claro, sendo eu, exagerei e criei um grande script que inclui cálculo automático e atualização das transformações de coordenadas, e também cálculo de streaming da média do sistema e limites naturais do processo:

$ cat temps2.txt | ./limits.pl
----------------------------------------------------------------
X:    51.0           [            | *         ]
X:    43.0         [           * |            ]
X:    45.0            [         |          ]
X:    38.0          [      *   |          ]
X:    40.0           [      *  |        ]
X:    35.0           [   *    |        ]
X:    36.0           [    *  |        ]
X:    32.0           [ *     |       ]
X:    32.0           [ *    |      ]
X:    31.0           [*     |     ]
X:    31.0           [*    |     ]
X:    32.0           [ *   |     ]
X:    32.0           [ *   |    ]
X:    31.0           [*   |    ]
X:    36.0           [    *     ]
X:    32.0           [ *  |     ]
X:    36.0          [     |     ]
X:    31.0          [ *   |     ]
X:    35.0          [    *|     ]
X:    36.0          [     |    ]
X:    36.0          [     *    ]
X:    33.0          [   * |    ]
X:    31.0          [ *   |    ]
X:    32.0          [  * |     ]
X:    31.0          [ *  |    ]
X:    33.0          [   *|    ]
X:    32.0          [  * |    ]
X:    32.0          [  * |    ]
X:    36.0          [    |*   ]
UPL=42.1
Xbar=35.2
LPL=28.2

Código-fonte não limpo para este script anexado também. Este é o primeiro rascunho, então desculpe o código incorreto.

#!/usr/bin/env perl

use v5.26;
use strict;
use warnings;
use List::Util qw( min max );

my $max_width = 52;

my $n = 0;
my $xbar = 0;
my $mrbar = 0;
my $lpl;
my $upl;

sub print_values {
    print "\n";
    printf "UPL=%.1f\n", $upl;
    printf "Xbar=%.1f\n", $xbar;
    printf "LPL=%.1f\n", $lpl;
}

$SIG{INT} = \&print_values;

my $min_y;
my $max_y;

my $xprev;
while (my $x = <>) {
    $n++;
    $xbar *= $n - 1;
    $xbar += $x;
    $xbar /= $n;

    if (defined($xprev)) {
        my $mr = abs ($x - $xprev);
        $mrbar *= $n - 2;
        $mrbar += $mr;
        $mrbar /= $n - 1;

        $lpl = $xbar - $mrbar * 2.66;
        $upl = $xbar + $mrbar * 2.66;

        my $space_changed;

        # If any point is about to be drawn outside of the screen space, expand
        # the space to include the currently drawn points and then some.
        if (min($lpl, $x) < $min_y or max($upl, $x) > $max_y) {
            my $min_diff = abs($min_y - min($lpl, $x));
            my $max_diff = abs($max_y - max($upl, $x));
            # Change min and max values in slightly larger steps to avoid
            # changing the space too often with a drifting process.
            $min_y -= $min_diff * 2;
            $max_y += $max_diff * 2;
            $space_changed = 1;
        }
        if ($min_y == $max_y) {
            $max_y = $min_y + 1;
        }

        my %screen_coords;
        $screen_coords{lpl} = $lpl;
        $screen_coords{upl} = $upl;
        $screen_coords{xbar} = $xbar;
        $screen_coords{x} = $x;

        # Transform the recorded values to the screen space.
        for my $coord (keys %screen_coords) {
            # Set offset to 0.
            $screen_coords{$coord} -= $min_y;
            # Divide by range to scale down to 0–1.
            $screen_coords{$coord} /= ($max_y - $min_y);
            # Scale up again to proper width.
            $screen_coords{$coord} *= ($max_width - 1);
        }

        # Render the recorded values into an array of characters.
        my @characters = split('', ' ' x $max_width);
        $characters[$screen_coords{xbar}] = '|';
        $characters[$screen_coords{lpl}] = '[';
        $characters[$screen_coords{upl}] = ']';
        $characters[$screen_coords{x}] = '*';

        # Print a separator whenever the space needs to be expanded.
        if ($space_changed) {
            printf ('-' x ($max_width + 12) . "\n");
        }

        printf "X: %7.1f %s\n", $x, join('', @characters);
    } else {
        $min_y = $x;
        $max_y = $x;
    }

    $xprev = $x;
}

print_values;

informação relacionada