Чеклист аудита Kubernetes-кластера перед production
Аудит Kubernetes нужен не для красивого отчёта. Он показывает, где кластер может сорвать релиз, потерять данные или долго восстанавливаться после сбоя. Ниже — практичный список проверок для production-контура.
Когда стоит проверять Kubernetes
Проверку стоит делать перед запуском нового сервиса и после накопленных изменений в кластере. Часто повод уже есть: кластер давно не обновлялся, релизы идут вручную, алертов много, а восстановление после сбоя держится на памяти одного инженера.
В такой ситуации проблема не в самом Kubernetes. Проблема в том, что команда не видит границы риска: что можно менять спокойно, где нужен release window, какие сервисы нельзя потерять и сколько времени займёт восстановление.
1. Доступы и RBAC
Сначала проверяем, кто может менять кластер и от чьего имени работают automation-задачи. В production опасны лишние права людей и service account с доступом шире своей задачи.
2. Ресурсы и устойчивость workload
Если у приложений нет requests, limits и probes, кластер работает на удаче. Scheduler не видит реальную потребность, kubelet поздно понимает, что pod нездоров, а один сервис может забрать ресурсы у соседей.
3. Ingress, TLS и сетевые правила
Рабочий ingress ещё не означает безопасный и управляемый вход в систему. Проверяем, какие endpoints открыты наружу, как обновляются сертификаты и могут ли сервисы обращаться к лишним внутренним ресурсам.
4. Storage, backup и restore
Backup сам по себе мало что гарантирует. Важен проверенный restore: кто запускает восстановление, сколько это занимает, какие данные теряются и какие сервисы нужно поднимать первыми.
5. Мониторинг, алерты и runbook
Мониторинг должен помогать дежурному инженеру принять решение. Если алерт не говорит, какой сервис страдает, где смотреть и кого подключать, он быстро становится фоном.
6. CI/CD, релизы и rollback
Kubernetes не делает релизы безопасными автоматически. Нужны проверки до deploy, контроль rollout и понятный rollback. Иначе команда узнаёт о проблеме уже после того, как пользователи попали на сломанную версию.
Что должно быть на выходе
Хороший аудит заканчивается не длинным списком замечаний, а рабочим планом. Для каждого риска должно быть понятно, на что он влияет, кто владелец, как проверить исправление и когда это нужно сделать.
FAQ
Сколько длится аудит Kubernetes-кластера?
Первичный аудит обычно занимает 7–10 дней. За это время можно собрать факты, проверить конфигурацию, поговорить с командой и подготовить карту рисков.
Можно ли начать без доступа на изменение?
Да. Нормальный старт — read-only доступ, схемы инфраструктуры, описание релизного процесса, monitoring, incidents и backup-процедуры. Изменения в production согласуются отдельно.
Что проверить в Kubernetes перед production в первую очередь?
Права доступа, requests/limits, probes, ingress/TLS, storage, backup/restore, мониторинг, CI/CD и rollback. Эти зоны чаще всего влияют на релизы, доступность и восстановление.
Чем аудит отличается от поддержки Kubernetes?
Аудит фиксирует текущее состояние и план исправлений. Поддержка — это регулярная работа с кластером: обновления, инциденты, capacity, monitoring, релизы и инфраструктурный backlog.