logo

Team Lead в команду доступности систем на базе OpenStack (SRE)

Откликнуться

Обязанности

О нас

Департамент инфраструктуры и поддержки ищет лидера команды по обеспечению доступности систем (SRE) на базе платформы OpenStack. Мы обеспечиваем работу тысяч серверов и инфраструктурного ПО для корпоративных и клиентских сервисов компании. Мы верим в концепцию Infrastructure-as-a-Code, а также в то, что инфраструктура имеет огромное значение в успехе продукта.

Мы ищем человека, который сможет войти в продуктовую команду, погрузиться в текущий стек разработки, CI/CD пайплайн, найти общий язык с DevOps командой, организовать деплой кода в прод и обеспечивать его работоспособность.

Вы нам подходите, если вы:

  • имеете опыт работы в качестве Team, Tech Lead от 3-х лет или DevOps/SRE инженера не менее 5-х лет;
  • понимаете устройство ядра Linux, его модулей, а также процессов управления потоками, задачами, памятью;
  • обладаете глубокими знаниями в архитектуре OpenStack и имеете успешный опыт деплоя и эксплуатации платформы;
  • знакомы с OpenLDAP/FreeIPA;
  • знаете и имеете практический опыт работы с Git в связке с любым CI/CD;
  • знаете и умеете использовать Terraform и Ansible/Puppet/Chef;
  • пишете на Python/Bash на уровне Junior+;
  • хорошо ориентируетесь в сборе метрик процессов, обработке логов и настройке алертинга; желательный стэк: Zabbix, Prometheus, ELK;
  • имеете базовые знания в области сетевых технологий;

Будет плюсом, если вы:

  • проектировали высоко-нагруженные, масштабируемые и отказоустойчивые сервисы (монолитные или микросервисные);
  • имеете опыт работы с ОС Astra Linux/Alt Linux;
  • обладаете практическим опытом эксплуатации высоконагруженных и распределенных SQL/NoSQL DB;

Требования

Вам предстоит:

  • отвечать за доступность платформы OpenStack и развернутых на ней приложений;
  • обеспечивать обновление платформы OpenStack, весь деплой должен быть покрыт тестами с возможностью отката всех внесенных изменений;
  • организовать качественный мониторинг и алертинг инфраструктуры и приложений;
  • быть активным участником процессов инцидент и проблем менеджмента (включая участие в устранении аварий, стабилизации систем после дизастера и выполнения действий, запланированных в рамках постмортема);
  • проводить DR тесты согласно DRP, согласовывать изменения продукта (изменение архитектуры, дизайна, масштабирование), оценивать риски и целесообразность изменений.

Условия

  • Необходимая техника для работы;
  • Обучение за счет компании;
  • Офис напротив Библиотеки им Ленина;
  • ДМС + стоматология;
  • Льготные условия кредитования.
Расскажите об этой вакансии в соцсетях

Отклик на вакансию:

Откликаясь на вакансию, вы даете согласие на обработку ваших персональных данных и соглашаетесь с политикой конфиденциальности Cloud.ru