Отдел эксплуатации VK - техническое сердце компании. Наши SRE отвечают за постоянное развитие окружения и непрерывную доступность продуктов для пользователей. Мы управляем системами из более 100 000 серверов в 10 дата-центрах. Создаем и поддерживаем полный цикл доставки продуктов, начиная от установки ОС и заканчивая CI для запуска приложений в контейнерах. Используем в своей работе не только глубокое понимание архитектуры серверного ПО, но и поддерживаем опыт разработки собственных сервисов. Задачи: Наша главная задача - обеспечение максимальной доступности продуктов, поэтому вам предстоит: развивать и масштабировать продуктовую инфраструктуру - наша инфраструктура состоит из множества сервисов в геораспределенных дата-центрах, мы также планируем наши вычислительные ресурсы и прогнозируем их утилизацию; автоматизировать работу - наши команды SRE занимаются полным циклом сопровождения продуктовой среды, от удаленной установки ОС до описания деплойментов (Helm-чартов, Kubernetes-операторов, манифестов Puppet, Playbook Ansible); работать с мониторингом и непосредственно участвовать в решении инцидентов - мы не только разрешаем текущие инциденты, но и постоянно работаем над предотвращением их появления в будущем; внедрять новые и улучшать уже имеющиеся решения на стыке железа, ОС, софта и процессов; участвовать в жизненном цикле продуктов - мы тесно связаны с командами разработки, двусторонняя обратная связь между нашими командами позволяет добиться лучших результатов в продукте и совместно влиять на наиболее критичные, узкие места в наших сервисах и инфраструктуре. Ищем в опыте коллеги: от трех лет опыта работы в роли SRE, DevOps, администратора Linux; опыт работы с prod; уверенные знания Linux; уверенные знания Сети; опыт работы с системами управления конфигурациями; опыт работы с мониторингом. Будет плюсом: опыт работы с СУБД; опыт работы с CI/CD; навыки автоматизации на Bash/Python/Go. |