
Team Lead в команду доступности систем на базе OpenStack (SRE)
Обязанности
О нас
Департамент инфраструктуры и поддержки ищет лидера команды по обеспечению доступности систем (SRE) на базе платформы OpenStack. Мы обеспечиваем работу тысяч серверов и инфраструктурного ПО для корпоративных и клиентских сервисов компании. Мы верим в концепцию Infrastructure-as-a-Code, а также в то, что инфраструктура имеет огромное значение в успехе продукта.
Мы ищем человека, который сможет войти в продуктовую команду, погрузиться в текущий стек разработки, CI/CD пайплайн, найти общий язык с DevOps командой, организовать деплой кода в прод и обеспечивать его работоспособность.
Вы нам подходите, если вы:
- имеете опыт работы в качестве Team, Tech Lead от 3-х лет или DevOps/SRE инженера не менее 5-х лет;
- понимаете устройство ядра Linux, его модулей, а также процессов управления потоками, задачами, памятью;
- обладаете глубокими знаниями в архитектуре OpenStack и имеете успешный опыт деплоя и эксплуатации платформы;
- знакомы с OpenLDAP/FreeIPA;
- знаете и имеете практический опыт работы с Git в связке с любым CI/CD;
- знаете и умеете использовать Terraform и Ansible/Puppet/Chef;
- пишете на Python/Bash на уровне Junior+;
- хорошо ориентируетесь в сборе метрик процессов, обработке логов и настройке алертинга; желательный стэк: Zabbix, Prometheus, ELK;
- имеете базовые знания в области сетевых технологий;
Будет плюсом, если вы:
- проектировали высоко-нагруженные, масштабируемые и отказоустойчивые сервисы (монолитные или микросервисные);
- имеете опыт работы с ОС Astra Linux/Alt Linux;
- обладаете практическим опытом эксплуатации высоконагруженных и распределенных SQL/NoSQL DB;
Требования
Вам предстоит:
- отвечать за доступность платформы OpenStack и развернутых на ней приложений;
- обеспечивать обновление платформы OpenStack, весь деплой должен быть покрыт тестами с возможностью отката всех внесенных изменений;
- организовать качественный мониторинг и алертинг инфраструктуры и приложений;
- быть активным участником процессов инцидент и проблем менеджмента (включая участие в устранении аварий, стабилизации систем после дизастера и выполнения действий, запланированных в рамках постмортема);
- проводить DR тесты согласно DRP, согласовывать изменения продукта (изменение архитектуры, дизайна, масштабирование), оценивать риски и целесообразность изменений.
Условия
- Необходимая техника для работы;
- Обучение за счет компании;
- Офис напротив Библиотеки им Ленина;
- ДМС + стоматология;
- Льготные условия кредитования.
Расскажите об этой вакансии в соцсетях