Аудит ИТ-инфраструктуры: что проверить в серверах, облаке и отказоустойчивости
Аудит ИТ-инфраструктуры нужен, когда рабочая среда уже работает, но команда не уверена в устойчивости инфраструктуры: что будет при сбое, росте нагрузки, миграции или уходе ключевого инженера. Проверять нужно не отдельные серверы, а всю цепочку: зависимости, доступы, резервное копирование, мониторинг, релизы и восстановление.
Когда нужен аудит инфраструктуры
Часто об аудите вспоминают после инцидента. Лучше проверить инфраструктуру раньше: перед ростом нагрузки, миграцией в облако, переходом на Kubernetes, сменой команды, серией ручных развертываний, ростом расходов или проверкой резервного копирования и восстановления.
Если инфраструктуру несколько лет никто целиком не пересматривал, в ней почти всегда накапливаются скрытые зависимости: сервисы без владельца, доступы бывших подрядчиков, серверы без обновлений, алерты без действия и backup, который давно не восстанавливали.
1. Серверная и облачная инфраструктура
Сначала собираем inventory: какие серверы, виртуальные машины, managed services, сети, DNS, storage и внешние зависимости участвуют в production. Без этого нельзя честно оценить отказоустойчивость и план восстановления.
В облаке отдельно смотрим IAM, service accounts, security groups, backup policies, labels, владельцев ресурсов и стоимость. В серверной инфраструктуре — роли узлов, обновления, capacity, диски, сеть и единые точки отказа.
2. Отказоустойчивость, резервное копирование и восстановление
Отказоустойчивость нельзя оценивать по наличию replica или backup job. Нужно проверить, что будет при отказе node, базы, storage, ingress, DNS или внешнего провайдера, и сколько времени займёт восстановление.
Резервная копия без проверенного восстановления — это надежда, а не план. В аудите фиксируем RPO/RTO, расписание, retention, место хранения, права доступа к копиям и дату последней успешной проверки восстановления.
3. Мониторинг, оповещения и разбор инцидентов
Мониторинг должен помогать команде понять причину деградации. Если Prometheus, Grafana, Zabbix или другой стек только показывает графики и не подсказывает первое действие, такой мониторинг плохо помогает production.
Проверяем покрытие критичных сервисов, качество алертов, маршруты Alertmanager или другой системы уведомлений, ответственных за сигналы, runbook и связь с postmortem.
4. Доступы, ключи и безопасность изменений
Инфраструктурный аудит не заменяет полноценный security audit, но базовые риски доступов проверять нужно. Постоянные admin/root/cluster-admin права, старые service accounts и секреты в CI/CD часто создают проблемы, которые дорого исправлять после инцидента.
Смотрим, как выдаются и отзываются доступы, где лежат secrets, кто может менять production, как устроен offboarding и есть ли аудит действий в облаке, GitLab, Kubernetes и CI/CD.
5. CI/CD, инфраструктура как код и ручные изменения
Релизы и инфраструктура связаны напрямую. Если deploy запускается вручную, Terraform не вызывает доверия, а часть ресурсов меняется через консоль, реальное состояние быстро расходится с документацией и репозиториями.
В аудите проверяем, где изменения проходят через review, что описано в Terraform/GitOps, где накопился drift, как устроен откат и какие операции всё ещё держатся на памяти одного инженера.
Что должно быть на выходе аудита
Итог должен быть полезен CTO и команде. Не список общих советов, а карта рисков: влияние, приоритет, техническое доказательство и безопасное следующее действие.
Удобный формат — P0/P1/P2. P0 закрывает риск простоя или потери данных, P1 снижает повторяемость инцидентов, P2 улучшает стоимость и порядок без срочного давления.
FAQ
Чем аудит ИТ-инфраструктуры отличается от DevOps-аудита?
Аудит ИТ-инфраструктуры шире смотрит серверы, облако, сеть, резервное копирование, мониторинг, доступы и отказоустойчивость. DevOps-аудит глубже разбирает релизы, CI/CD, IaC, зоны ответственности и процесс изменений. На практике эти проверки часто пересекаются.
Можно ли провести аудит без доступа на изменение?
Да. Для первичной проверки достаточно read-only доступов, inventory, схем, выгрузок конфигураций, мониторинга и интервью с командой. Изменения в production идут отдельным этапом после согласования.
Что проверять в отказоустойчивости инфраструктуры?
Единые точки отказа, capacity, backup/restore, RPO/RTO, DNS, storage, базы, сеть, Kubernetes nodes, ingress, внешние зависимости и runbook восстановления. Важно не наличие резервирования само по себе, а проверенный сценарий восстановления.
Сколько времени занимает аудит инфраструктуры?
Для первичного production-аудита обычно 7–10 дней: сбор фактов, интервью, read-only анализ конфигураций, мониторинга, backup, CI/CD и подготовка карты рисков 30/60/90.