
У нас есть несколько серверов LAMP, каждый из которых запускает специальный скрипт, который мы написали для отчета по различным системным метрикам. Отчет запускается ежедневно, и идея состоит в том, чтобы иметь возможность сделать быстрый проход и обнаружить любые потенциальные проблемы в системе.
На каждом сервере LAMP работает RedHat Enterprise, на каждом из которых размещается 40–50 (и их число растет) общедоступных веб-сайтов (сочетание сайтов HTML, PHP и Drupal).
Вот что в данный момент включает в себя сценарий:
- Нагрузка на сервер и вошедшие пользователи
- Последние 10 входов и время
- Использование диска
- Последние 10 строк из различных журналов (qmail, mysql, secure, apache error, package)
- имя пользователя, порт и время последнего входа для каждой учетной записи
- верхняя свалка
Отчет и так длинный, поэтому я постараюсь сделать его максимально лаконичным.
Нашли ли вы другие показатели важными для включения в такой сценарий? Вы бы исключили что-нибудь из этого списка?
Спасибо, команда.
дж
решение1
Я бы проверил, чтобы убедиться, что ваша среда в порядке. Проверьте, что PHP работает правильно (напишите простой PHP-скрипт, который что-то выводит, wget его, убедитесь, что вы получили то, что ожидали), вашу базу данных (просто подключитесь и убедитесь, что вы видите базы данных) и т. д.
Кроме того, если вы используете SSL, проверьте сертификат на предмет истечения срока действия, неожиданных изменений и т. д.
решение2
Я бы рекомендовал использовать автоматизированный инструмент сбора данных, такой какКактусыкоторый будет собирать и сообщать о различных показателях с течением времени. Это позволит вам легко определять тенденции и планировать будущее. Есть отличная книга Джона Оллспоу под названиемИскусство планирования мощностейкоторый очень подробно рассматривает эту тему. Я настоятельно рекомендую это всем, кому нужно отслеживать метрики на серверах.
решение3
Мой совет — не сообщать об этом регулярно. Вас завалят информацией, а человеческая натура такова, что когда проблема действительно появляется, вы действительно можете ее пропустить.
Вместо этого сообщайте только тогда, когда одна из этих переменных ненормальна. Возможно, даже чаще в течение дня. Вы можете использовать систему мониторинга и построения графиков, такую как Cacti, которая будет предупреждать вас о таких изменениях и сохранять исторические данные для дальнейшего использования.
решение4
Вам действительно нужен постоянный мониторинг. Мы используем Nagios для проверки каждого из наших веб-серверов несколько раз в минуту, чтобы убедиться, что они все еще работают. Мы также отслеживаем наши базы данных и все остальное, что только можем придумать. Со временем у вас будут сбои и вы обнаружите вещи, которые вы должны были отслеживать.
Другая сторона мониторинга — это своего рода графики. Мы используем Munin, но кактусы или ганглии — обычные решения. Графики бесценны для отслеживания тенденций в вашей системе.