La numérisation de nos activités exige une livraison plus rapide des nouvelles fonctionnalités et un besoin encore plus grand de disponibilité, de performance et de stabilité des services et des applications informatiques, afin d'améliorer la satisfaction et la fidélisation de nos clients « Fournir des solutions que nos clients, partenaires et employés aiment utiliser ». Le Service Reliability Engineer (SRE) contribue à la qualité globale des services informatiques livrés afin de respecter les niveaux de service convenus, en veillant à ce que les services informatiques soient livrés avec le bon niveau de disponibilité, de résilience, de performance, de surveillance et de capacité, en analysant et en comprenant la situation et le contexte ac
Le Service Reliability Engineer, en tant que membre d'une organisation DevOps, crée une culture de « fiabilité des services » au sein des équipes DevOps (Product Feature Teams).
Il doit constamment trouver un équilibre entre la vitesse de livraison des nouvelles fonctionnalités ou des fonctionnalités modifiées et la fiabilité des plateformes et systèmes sous-jacents. C'est un moyen d'intégrer la Qualité de Service et la propriété d'un service et d'une application fiables dans les Product Teams et Feature Teams.
L'ensemble du travail du SRE consiste à améliorer constamment la fiabilité des services et des applications. L'amélioration continue est donc inhérente aux opérations SRE dans une organisation DevOps.
Le SRE sera en contact avec de nombreux services grâce à sa compréhension des responsabilités des développeurs et des opérations informatiques, il peut contribuer à diffuser les connaissances du système dans l'ensemble de l'équipe et améliorer la visibilité de l'ensemble du système d'application. Il sera confronté au développement, au déploiement, à la configuration, à l'orchestration et à tout ce qui se trouve entre les deux.
L'objectif du SRE est de s'impliquer de manière pro-active et le plus tôt possible (au début des projets) dans des discussions non fonctionnelles avec les équipes dev-ops afin de s'assurer que l'ORA est couvert et de répondre aux exigences de nos SLA : Il travaillera en étroite collaboration avec les Architects et Feature/Product teams afin de comprendre et de remettre en question les conceptions et les configurations architecturales. Il identifiera également les faiblesses du système dans les environnements existants (réactivité), et fera des propositions pour résoudre de tels problèmes avant qu'ils ne deviennent des incidents majeurs.
Il améliore la fiabilité des services techniques grâce à une collaboration approfondie et une optimisation proactive des redondances et des pratiques de surveillance et d'alerte.
Il sera consulté dans le cadre de problèmes complexes, dirigera des groupes de travail techniques chaque fois que cela sera nécessaire et effectuera des évaluations après une panne majeure.
Il est fortement impliqué dans la gestion des urgences, le dépannage d'incidents et la résolution de problèmes cruciaux, ainsi que dans l'analyse des données opérationnelles (informations sur les applications, les plateformes et les systèmes d'information).
La capacité à résoudre efficacement les problèmes dépend de la capacité à travailler en harmonie avec les autres. Il n'est pas attendu de la part du SRE qu'il connaisse toutes les réponses ; il doit plutôt être en mesure de savoir à qui demander de l'aide au sein de l'équipe ou de l'organisation et comment communiquer avec elles.
Il est consulté concernant les changements majeurs, les migrations et les mises à jour, en adressant le bon défi à ceux qui implémentent et demandent le changement, en s'assurant que les risques opérationnels potentiels ont bien été cernés et atténués.
Il identifie les risques opérationnels et propose des alternatives et des solutions pour y remédier.
Le Service Reliability Engineer est capable d'examiner d'un œil critique une plateforme système middleware et de s'en servir pour guider et remettre en question les implémentations existantes.
Il est en mesure d'utiliser des outils spécialisés et comprendre, interpréter and corréler des données et des évènements dans le but d'identifier les causes profondes et de proposer des améliorations (fonctionnelles - non fonctionnelles). Si nécessaire, il fera appel à des experts infra-middleware-DB-Dev, ou à des consultants externes pour approfondir le sujet.
Il cherche également à développer des solutions automatisées pour les aspects opérationnels tels que la surveillance d'appel, la planification des performances et des capacités, et la réponse aux catastrophes.
Il dispose d'une expérience opérationnelle en informatique, d'une bonne connaissance générale de l'infrastructure et comprend les pratiques de développement.
Il travaille en étroite collaboration avec les Product et Feature Teams pour s'assurer que la solution conçue répond aux exigences non fonctionnelles telles que la fiabilité et la sécurité (y compris le bon niveau de disponibilité, de performance et de maintenabilité).
Il soutient et défie en permanence les Product et Feature Teams afin d'augmenter le niveau de stabilité, de disponibilité, de latence, de performance, de résilience, de temps de réponse, d'évolutivité et de capacité.
Compétences indispensables
Qualifications : Bachelier
Vul in waar je vergelijkbare vacatures zoekt en vergeet je e-mailadres niet!