Metrics
ГлавнаяКейсыПлатформа с нуля
Platform engineering / private cloud

Платформа с нуля в ЦОД и Yandex Cloud: Kubernetes, service mesh, observability и Ceph

Платформу собирали не как одиночный кластер, а как production-основание: Kubernetes, CI/CD, service mesh, трассировка, метрики, логи, PostgreSQL и Ceph-хранилища.

Контур
ЦОД, Yandex Cloud, Kubernetes
Фокус
platform engineering, observability, storage
Артефакт
кластеры, CI/CD, service mesh, Ceph

Проблема

Нужно было развернуть инфраструктуру в ЦОД и Yandex Cloud, не потеряв управляемость между средами.
Кластеры Kubernetes требовали настройки с нуля: сеть, доступы, ingress, observability, stateful-компоненты.
Команде нужен был CI/CD на GitLab CI и Ansible, чтобы доставка сервисов не зависела от ручного администрирования.
Платформа должна была включать service mesh, трассировку, метрики, логи и storage-контур.

Что сделали

Спроектировали и развернули Kubernetes-кластеры с нуля для платформенного контура.
Настроили GitLab CI, Ansible playbooks и базовые процессы доставки приложений.
Подключили Istio, OpenTelemetry Collector, Grafana Tempo, Prometheus, Thanos, VictoriaMetrics и Grafana.
Подготовили PostgreSQL-кластеры и Ceph FS/S3 на CentOS/Astra Linux для stateful-нагрузок.

Что получил бизнес

Команда получила платформу, готовую к развитию сервисов, а не отдельный набор серверов.
Observability закрыла сразу несколько уровней: метрики, трассировка, логи и состояние инфраструктуры.
CI/CD и Ansible снизили ручные операции при доставке и сопровождении сервисов.
Storage и database-слой стали частью платформенного дизайна, а не отдельной эксплуатационной проблемой.
Что проверяли

Риски, которые нужно было закрыть

как связаны кластеры, delivery, observability и storage между средами;
где есть единые точки отказа в платформенном и stateful-слое;
какие сервисы требуют трассировки, метрик, логов и понятного ownership;
как платформа будет обновляться и расширяться после первого production-запуска.

Стек и зона ответственности

Технологии указаны как зона работ: эксплуатация, настройка, автоматизация, мониторинг или подготовка к обновлениям.

KubernetesGitLab CIAnsibleTerraformIstioOpenTelemetryGrafana TempoPrometheusThanosVictoriaMetricsGrafanaOpenSearchKeycloakYandex CloudCeph FSCeph S3PostgreSQL
Артефакты

Доказательства и рабочие артефакты

Kubernetes-кластеры в ЦОД и Yandex Cloud с базовым platform engineering-контуром
GitLab CI, Ansible и Terraform-подход для доставки и инфраструктурных изменений
Istio, OpenTelemetry, Tempo, Prometheus, Thanos, VictoriaMetrics и Grafana для observability
Ceph FS/S3 и PostgreSQL-кластеры как часть production-платформы для stateful-нагрузок
Вывод

Итог по проекту

Когда платформа строится с нуля, ошибка обычно в том, что Kubernetes запускают раньше, чем договариваются о delivery, observability, storage и ownership. Здесь эти слои собирались вместе, поэтому платформа стала основанием для сервисов, а не ещё одним кластером, который некому сопровождать.

Похожая задача в вашей инфраструктуре?

Начать можно с read-only доступа и короткого разбора: фиксируем контур, риски, быстрые исправления и план работ.

Спроектировать платформенный контур

Связанные услуги