Temps plein

Sur place

Ingénieur de plateforme d'apprentissage automatique

RRoyal Bank of Canada 200 Bay Street, Toronto, Ontario0

Description

RBC Borealis recherche un ingénieur de plateforme d'apprentissage automatique expérimenté pour concevoir et mettre en œuvre l'infrastructure d'apprentissage automatique et les outils d'automatisation (MLOps et DevOps). Ce rôle implique le déploiement et l'exploitation de plateformes GenAI sur Kubernetes/OpenShift, la gestion des déploiements de grands modèles linguistiques sur l'infrastructure GPU, la surveillance des performances, la mise en œuvre de piles d'observabilité et la construction de systèmes évolutifs sur site pour le ML.

Ce que nous recherchons

Déployer et exploiter la plateforme GenAI sur OpenShift/Kubernetes.,Gérer les déploiements de grands modèles linguistiques (Cohere Command, Llama, Mistral) sur l'infrastructure GPU (NVIDIA A100/H100).,Configurer les pipelines RAG avec des frameworks de service comme vLLM, NVIDIA NIM et TensorRT-LLM.,Surveiller l'utilisation du GPU, les métriques de performance des modèles et l'allocation des ressources.,Mettre en œuvre des piles d'observabilité (Prometheus, Grafana, Pushgateway, pipelines de journalisation structurée) pour la santé et la sécurité de la plateforme.,Concevoir et mettre en œuvre les meilleures pratiques et normes pour les pipelines de données et d'apprentissage automatique.,Soutenir les utilisateurs de la plateforme et les équipes interfonctionnelles par des conseils en conception d'infrastructure, de la documentation et de la collaboration.,Construire des systèmes sur site hautement évolutifs et résilients pour héberger des systèmes d'apprentissage automatique.,Solide expérience dans la conception et l'exploitation de systèmes distribués/ML.,Connaissance approfondie de Kubernetes/OpenShift (Helm, opérateurs, ressources personnalisées, RBAC, dépannage).,Expérience avérée dans la construction de pipelines DevOps/CI/CD (GitHub Actions), d'images Docker multi-étapes, de mise en miroir de registres et d'automatisation d'infrastructure dans des environnements d'entreprise restreints.,Connaissance approfondie des différentes étapes du processus de déploiement d'applications d'apprentissage automatique.,Maîtrise des langages de programmation tels que Python, Bash ou Rust.,Solide compréhension des meilleures pratiques d'ingénierie logicielle (tests, normes de codage, revues de code, contrôle de version, surveillance de production, alertes).,Expérience pratique dans la construction et le déploiement d'environnements hybrides dans des environnements d'entreprise sur site.,Familiarité avec l'inférence et le service de grands modèles linguistiques (LLM) (par exemple, VLLM).

Candidat idéal

Solide expérience dans la conception et l'exploitation de systèmes distribués/ML.,Connaissance approfondie de Kubernetes/OpenShift (Helm, opérateurs, ressources personnalisées, RBAC, dépannage).,Expérience avérée dans la construction de pipelines DevOps/CI/CD (GitHub Actions), d'images Docker multi-étapes, de mise en miroir de registres et d'automatisation d'infrastructure dans des environnements d'entreprise restreints.,Connaissance approfondie des différentes étapes du processus de déploiement d'applications d'apprentissage automatique.,Maîtrise des langages de programmation tels que Python, Bash ou Rust.,Solide compréhension des meilleures pratiques d'ingénierie logicielle (tests, normes de codage, revues de code, contrôle de version, surveillance de production, alertes).,Expérience pratique dans la construction et le déploiement d'environnements hybrides dans des environnements d'entreprise sur site.,Familiarité avec l'inférence et le service de grands modèles linguistiques (LLM) (par exemple, VLLM).

Compétences techniques

Gestion du Big Data

Exploration de données

Science des données

Apprentissage profond

DevOps

Apprentissage automatique (ML)

Opérations d'apprentissage automatique

Langages de programmation

Kubernetes

OpenShift

Helm

Docker

Plateforme GenAI

Infrastructure GPU

NVIDIA A100/H100

Pipelines RAG

vLLM

NVIDIA NIM

TensorRT-LLM

Prometheus

Grafana

Pushgateway

Python

Bash

Rust

Inférence et service de LLM

Compétences interpersonnelles

Collaboration

Résolution de problèmes (impliqué par le dépannage et la construction de systèmes résilients)

Communication (impliqué par le soutien aux utilisateurs et la documentation)

Souci du détail (normes de codage, surveillance, alertes)

Heures de travail

37,5 heures/semaine

Avantages

Programme de rémunération globale (primes, avantages sociaux flexibles, rémunération concurrentielle, commissions, options d'achat d'actions)

Des leaders qui soutiennent le développement par le coaching et les opportunités de gestion

Opportunité de faire une différence et d'avoir un impact durable

À propos de l'entreprise

Royal Bank of Canada

La Banque Royale du Canada est une institution financière mondiale définie par sa raison d'être et guidée par des principes en vue de produire une performance de premier plan. En tant que plus grande banque du Canada, elle offre des services de banque aux particuliers et aux entreprises, de gestion de patrimoine et de marchés des capitaux à plus de 17 millions de clients dans le monde.

Axé sur la mission

Inclusif

Innovant

Collaboratif

Professionnel

Voir tous les emplois chez Royal Bank of Canada

Retour aux offres