Overview

Site Reliability Engineer (SRE) | Développeur en Ingénierie de la Fiabilité

WorkJam’s mission? To provide the best Digital Workplace for frontline and hourly workers. Through our industry-leading Digital Frontline Workplace platform, we are positively impacting the lives of millions of frontline employees worldwide, enabling them to achieve breakthrough productivity levels at companies of all sizes. We’re proud of our dedicated teams who are driven to make a difference in the world. Join our team today and bring your innovative ideas, passion, and commitment to excellence to make an impact on our products and the new markets we create!

 

WorkJam is a high growth global organisation with operations in North America, Europe, and Australia with our head office based in Montreal. Learn more about WorkJam at WorkJam.com!

 

Summary

 

Your role as a Site Reliability Engineer/Specialist (SRE)
The SRE is responsible to collaborate closely with the Development and DevOps teams with a focus on reliability, scalability, resilience, security, and performance. You will be responsible to centralize monitoring activities and proactively bring solutions to improve the overall application. Sharing the DevOps objectives, the SRE will work within the Dev organization.

 

What you will be doing:

 

Collaborate with Dev, DevOps, Release and QA teams to ensure proactive detection of unwanted behaviors in the application.
Serve as a primary point who is responsible for the overall health, performance, and capacity of our platform.
Gather and analyze metrics from both operating systems and applications to assist in performance tuning and fault-finding.
Assist in the roll-out and deployment of new product features and installations to facilitate our rapid iteration and growth.
Work closely with development teams to ensure the platform is designed with operability in mind.
Measure and optimize system performance, with an eye toward pushing our capabilities forward, getting ahead of customer needs, and innovating to continuously improve.
Participate in an on-call rotation.
Perform root cause analysis and document results in the form of post-mortems.
Identify and lead efforts to improve automation.
What we’re looking for:

 

Bachelor’s Degree in a technical field (Software Engineering or related field).
Good knowledge of visualization and monitoring tools like Prometheus, New Relic, Firebase, Grafana.
3+ years hands-on experience operating Kubernetes clusters in a production environment.
Understanding of the Linux Operating System, standard networking protocols, and components.
Experience in managing and scaling distributed systems in one of the three major cloud providers (AWS, GCP).
Experience with deploying, supporting and monitoring new and existing services, platforms, and application stacks.
Automation/Scripting experience with Shell, Python or something similar.
Familiarity with Infrastructure as Code (IaC) tools (Kubernetes Helm Charts, Terraform, etc.).
Strong Java programming experience.
What we offer:

Competitive salary and benefits package
4 weeks’ vacation
Contribution to your retirement plan
A flexible and remote/hybrid work environment
Work with the latest technology
A dynamic and inclusive culture
A supportive team that will encourage your professional growth and development
 

La mission de WorkJam? Fournir la meilleure platforme numérique aux travailleurs horaires et de première ligne. Grâce à notre plateforme numérique à la fine pointe de l’industrie, nous créons un impact positif dans la vie de millions d’employés de première ligne dans le monde, leur permettant d’atteindre des niveaux de productivité révolutionnaires dans des entreprises de toutes tailles. Nous sommes fiers de nos équipes dévouées qui sont déterminées à faire une différence dans le monde. Joignez notre équipe aujourd’hui et apportez vos idées innovantes, votre passion et votre engagement envers l’excellence pour influencer nos produits et les nouveaux marchés que nous créons!

 

WorkJam est une compagnie internationale en pleine croissance avec des opérations en Amérique du nord, en Europe et en Australie et dont le siège social est à Montréal. Pour en savoir plus sur WorkJam, visitez WorkJam.com.

 

Le SRE est chargé de collaborer avec les équipes de Développement et de DevOps en se concentrant sur la fiabilité, l’évolutivité, la résilience, la sécurité et les performances. Tu serez responsable de centraliser les activités de surveillance et d’apporter de manière proactive des solutions pour améliorer l’application globale. Partageant les objectifs DevOps, le SRE travaillera au sein de l’organisation Dev.

 

Ce que vous ferez :

 

Collaborer avec les équipes Dev, DevOps, Déploiement et AQ pour assurer une détection proactive des comportements indésirables dans l’application.
Servir de point principal responsable de la santé, des performances et de la capacité globales de notre plate-forme.
Recueillir et analyser les métriques des systèmes d’exploitation et des applications pour faciliter le réglage des performances et la recherche de pannes.
Aider au déploiement de nouvelles fonctionnalités et installations de produits pour faciliter notre itération et notre croissance rapides.
Travailler en étroite collaboration avec les équipes de développement pour s’assurer que la plate-forme est conçue en mettant l’accent sur l’opérabilité.
Mesurer et optimiser les performances du système, dans le but de faire progresser nos capacités, de devancer les besoins des clients et d’innover pour nous améliorer continuellement.
Participer à une rotation sur appel.
Effectuez une analyse des causes profondes et documentez les résultats sous forme de post-mortem.
Identifier et diriger les efforts pour améliorer l’automatisation.
Ce que nous recherchons :

 

Baccalauréat dans un domaine technique (Génie logiciel ou domaines connexe).
Bonne connaissance des outils de visualisation et de monitoring comme Prometheus, New Relic, Firebase, Grafana
3+ ans d’expérience pratique dans l’exploitation de clusters Kubernetes dans un environnement de production.
Compréhension du système d’exploitation Linux, des protocoles réseau standard et des composants.
Expérience dans la gestion et la mise à l’échelle de systèmes distribués dans l’un des trois principaux fournisseurs de cloud (AWS, GCP).
Expérience du déploiement, de la prise en charge et de la surveillance de services, plates-formes et stacks d’applications nouveaux et existants.
Expérience en automatisation/écriture de scripts avec Shell, Python ou quelque chose de similaire.
Familiarité avec les outils Infrastructure as Code (IaC) (Kubernetes Helm Charts, Terraform, etc.).
Solide expérience en programmation Java.

Ce que nous offrons:

 

Salaire et avantages sociaux compétitifs
4 semaines de vacances
Contribution à votre régime de retraite/pension
Un environnement de travail flexible et à distance/hybride
Travaillez avec les technologies les plus récentes
Une culture dynamique et inclusive
Une équipe solidaire qui encouragera votre croissance et votre développement professionnel