¿Cómo puedo acceder a los datos de tiempo de robo en Solaris SunOS 5.10?

Question

Su verdadero problema aquí parece ser la desaceleración de su rendimiento. Y el tiempo de robo probablemente no tenga sentido en un servidor Solaris 10 T1000/T2000.

Para saber si está ejecutando en una zona, use el /usr/bin/zonenamecomando (la ubicación puede ser diferente en diferentes versiones de Solaris; verifique también /bin, /sbin/y /usr/sbin.) Si zonenamedevuelve algo distinto a global, está ejecutando en una zona.

Si por alguna razón no tienes acceso al zonenamecomando, hay varios pscomandos que puedes usar para ver si estás en una zona. Primero, busque init:

ps -ef | grep init

Si eso no localiza un initproceso con un PID de 1, estás en una zona. También puedes buscar zsched(IIRC):

ps -ef | grep zsched

Si eso devuelve un proceso que es su propio padre (tanto PID como PPID son iguales y mayores que 1), entonces estás ejecutando en una zona.

Si estás en una zona, es posible que te encuentres con limitaciones de recursos que te ralenticen. Sin embargo, no es probable que ese sea el caso.

Quédemás¿Se está ejecutando en el servidor? Incluyendo otras zonas. He visto problemas de rendimiento realmente desagradables en servidores Sun serie T similares a los que estás describiendo, causados por interacciones entre ZFS ARC y aplicaciones que utilizan páginas de memoria enormes, como una base de datos Oracle.

El ZFS ARC utiliza páginas de memoria de 4k, por lo que fragmenta la memoria, y lo haráTODOla memoria de su servidor. Si su servidor entra en ese estado y un proceso requiere una cantidad significativa de páginas de memoria grandes, el kernel tiene que fusionar un montón de páginas pequeñas en otras grandes, lo que implica mover mucha memoria. Y todo se hace en un solo subproceso. Y cualquier subproceso en uno de los primeros servidores de la serie T esLENTOya que los servidores fueron diseñados para manejar una gran cantidad de subprocesos con grandes latencias, como un servidor web o un servidor de bases de datos que maneja muchas conexiones a través de una red.

Entonces, el núcleo pasa por largos períodos en los que prácticamente todo lo que hace es fusionar pequeñas páginas de memoria en páginas grandes.

Luego, ZFS ARC recupera las páginas después de que finaliza el proceso de uso de páginas grandes y se fragmentan.

Sospecho que puedes estar teniendo exactamente el mismo problema.

Para averiguarlo, corre

echo ::memstat | mdb -k

como root, en la zona global si está ejecutando zonas. Si tu memoria libre es muy baja, es posible que tengas este problema.

Para averiguarlo, ejecute el siguiente script dTrace, nuevamente como root desde la zona global para determinar dónde pasa el kernel todo su tiempo:

#!/usr/sbin/dtrace -s

profile:::profile-1001hz
/arg0/
{
    @[ stack() ] = count();
}

Copie eso en un archivo, digamos hot.d, configúrelo como ejecutable ( chmod 755 hot.d) y ejecútelo como root desde la zona global:

./hot.d

Ejecútelo cuando experimente desaceleraciones. Déjelo funcionar durante unos buenos 10 a 20 segundos, si no más después de que emita matched 1 probe, luego rómpalo con CTRL-C. Luego emitirá unlotede producción, la mayoría de los cuales no te importan. Sin embargo, el último puñado de resultados de seguimiento de pila serán los más comunes muestreados, lo que le indicará dónde pasa el kernel todo su tiempo.

Eso definitivamente te dirá dónde está tu problema. Puede que no sea lo suficientemente preciso para resolverlo por completo y es posible que necesites investigar más, pero sabrás dónde buscar.

Si ve muchos rastros de pila dentro idleo waitdentro de ella, tiene un problema de espacio de usuario. Es posible que pueda identificarlo reemplazando stack()el script dTrace anterior con ustack()para obtener la pila de usuarios.

Y si ve muchos rastros de pila coalesceen los nombres de las funciones, el núcleo dedica todo su tiempo a crear páginas de memoria grandes. La solución para esto es liberar memoria, probablemente limitando el tamaño de ZFS ARC, tal vez incluso severamente. he tenido querótulael ZFS ARC en algunos servidores, hasta menos de 1 GB, para evitar que afecte al rendimiento.

Answer 1

Su verdadero problema aquí parece ser la desaceleración de su rendimiento. Y el tiempo de robo probablemente no tenga sentido en un servidor Solaris 10 T1000/T2000.

Para saber si está ejecutando en una zona, use el /usr/bin/zonenamecomando (la ubicación puede ser diferente en diferentes versiones de Solaris; verifique también /bin, /sbin/y /usr/sbin.) Si zonenamedevuelve algo distinto a global, está ejecutando en una zona.

Si por alguna razón no tienes acceso al zonenamecomando, hay varios pscomandos que puedes usar para ver si estás en una zona. Primero, busque init:

ps -ef | grep init

Si eso no localiza un initproceso con un PID de 1, estás en una zona. También puedes buscar zsched(IIRC):

ps -ef | grep zsched

Si eso devuelve un proceso que es su propio padre (tanto PID como PPID son iguales y mayores que 1), entonces estás ejecutando en una zona.

Si estás en una zona, es posible que te encuentres con limitaciones de recursos que te ralenticen. Sin embargo, no es probable que ese sea el caso.

Quédemás¿Se está ejecutando en el servidor? Incluyendo otras zonas. He visto problemas de rendimiento realmente desagradables en servidores Sun serie T similares a los que estás describiendo, causados por interacciones entre ZFS ARC y aplicaciones que utilizan páginas de memoria enormes, como una base de datos Oracle.

El ZFS ARC utiliza páginas de memoria de 4k, por lo que fragmenta la memoria, y lo haráTODOla memoria de su servidor. Si su servidor entra en ese estado y un proceso requiere una cantidad significativa de páginas de memoria grandes, el kernel tiene que fusionar un montón de páginas pequeñas en otras grandes, lo que implica mover mucha memoria. Y todo se hace en un solo subproceso. Y cualquier subproceso en uno de los primeros servidores de la serie T esLENTOya que los servidores fueron diseñados para manejar una gran cantidad de subprocesos con grandes latencias, como un servidor web o un servidor de bases de datos que maneja muchas conexiones a través de una red.

Entonces, el núcleo pasa por largos períodos en los que prácticamente todo lo que hace es fusionar pequeñas páginas de memoria en páginas grandes.

Luego, ZFS ARC recupera las páginas después de que finaliza el proceso de uso de páginas grandes y se fragmentan.

Sospecho que puedes estar teniendo exactamente el mismo problema.

Para averiguarlo, corre

echo ::memstat | mdb -k

como root, en la zona global si está ejecutando zonas. Si tu memoria libre es muy baja, es posible que tengas este problema.

Para averiguarlo, ejecute el siguiente script dTrace, nuevamente como root desde la zona global para determinar dónde pasa el kernel todo su tiempo:

#!/usr/sbin/dtrace -s

profile:::profile-1001hz
/arg0/
{
    @[ stack() ] = count();
}

Copie eso en un archivo, digamos hot.d, configúrelo como ejecutable ( chmod 755 hot.d) y ejecútelo como root desde la zona global:

./hot.d

Ejecútelo cuando experimente desaceleraciones. Déjelo funcionar durante unos buenos 10 a 20 segundos, si no más después de que emita matched 1 probe, luego rómpalo con CTRL-C. Luego emitirá unlotede producción, la mayoría de los cuales no te importan. Sin embargo, el último puñado de resultados de seguimiento de pila serán los más comunes muestreados, lo que le indicará dónde pasa el kernel todo su tiempo.

Eso definitivamente te dirá dónde está tu problema. Puede que no sea lo suficientemente preciso para resolverlo por completo y es posible que necesites investigar más, pero sabrás dónde buscar.

Si ve muchos rastros de pila dentro idleo waitdentro de ella, tiene un problema de espacio de usuario. Es posible que pueda identificarlo reemplazando stack()el script dTrace anterior con ustack()para obtener la pila de usuarios.

Y si ve muchos rastros de pila coalesceen los nombres de las funciones, el núcleo dedica todo su tiempo a crear páginas de memoria grandes. La solución para esto es liberar memoria, probablemente limitando el tamaño de ZFS ARC, tal vez incluso severamente. he tenido querótulael ZFS ARC en algunos servidores, hasta menos de 1 GB, para evitar que afecte al rendimiento.

¿Cómo puedo acceder a los datos de tiempo de robo en Solaris SunOS 5.10?

Respuesta1

información relacionada