Skip to main content
Temps plein
Sur place

Ingénieur de plateforme d'apprentissage automatique

Voir sur la carte

Description

RBC Borealis recherche un ingénieur de plateforme d'apprentissage automatique expérimenté pour concevoir et mettre en œuvre l'infrastructure d'apprentissage automatique et les outils d'automatisation (MLOps et DevOps). Ce rôle implique le déploiement et l'exploitation de plateformes GenAI sur Kubernetes/OpenShift, la gestion des déploiements de grands modèles linguistiques sur l'infrastructure GPU, la surveillance des performances, la mise en œuvre de piles d'observabilité et la construction de systèmes évolutifs sur site pour le ML.

Ce que nous recherchons

Déployer et exploiter la plateforme GenAI sur OpenShift/Kubernetes.,Gérer les déploiements de grands modèles linguistiques (Cohere Command, Llama, Mistral) sur l'infrastructure GPU (NVIDIA A100/H100).,Configurer les pipelines RAG avec des frameworks de service comme vLLM, NVIDIA NIM et TensorRT-LLM.,Surveiller l'utilisation du GPU, les métriques de performance des modèles et l'allocation des ressources.,Mettre en œuvre des piles d'observabilité (Prometheus, Grafana, Pushgateway, pipelines de journalisation structurée) pour la santé et la sécurité de la plateforme.,Concevoir et mettre en œuvre les meilleures pratiques et normes pour les pipelines de données et d'apprentissage automatique.,Soutenir les utilisateurs de la plateforme et les équipes interfonctionnelles par des conseils en conception d'infrastructure, de la documentation et de la collaboration.,Construire des systèmes sur site hautement évolutifs et résilients pour héberger des systèmes d'apprentissage automatique.,Solide expérience dans la conception et l'exploitation de systèmes distribués/ML.,Connaissance approfondie de Kubernetes/OpenShift (Helm, opérateurs, ressources personnalisées, RBAC, dépannage).,Expérience avérée dans la construction de pipelines DevOps/CI/CD (GitHub Actions), d'images Docker multi-étapes, de mise en miroir de registres et d'automatisation d'infrastructure dans des environnements d'entreprise restreints.,Connaissance approfondie des différentes étapes du processus de déploiement d'applications d'apprentissage automatique.,Maîtrise des langages de programmation tels que Python, Bash ou Rust.,Solide compréhension des meilleures pratiques d'ingénierie logicielle (tests, normes de codage, revues de code, contrôle de version, surveillance de production, alertes).,Expérience pratique dans la construction et le déploiement d'environnements hybrides dans des environnements d'entreprise sur site.,Familiarité avec l'inférence et le service de grands modèles linguistiques (LLM) (par exemple, VLLM).

Candidat idéal

Solide expérience dans la conception et l'exploitation de systèmes distribués/ML.,Connaissance approfondie de Kubernetes/OpenShift (Helm, opérateurs, ressources personnalisées, RBAC, dépannage).,Expérience avérée dans la construction de pipelines DevOps/CI/CD (GitHub Actions), d'images Docker multi-étapes, de mise en miroir de registres et d'automatisation d'infrastructure dans des environnements d'entreprise restreints.,Connaissance approfondie des différentes étapes du processus de déploiement d'applications d'apprentissage automatique.,Maîtrise des langages de programmation tels que Python, Bash ou Rust.,Solide compréhension des meilleures pratiques d'ingénierie logicielle (tests, normes de codage, revues de code, contrôle de version, surveillance de production, alertes).,Expérience pratique dans la construction et le déploiement d'environnements hybrides dans des environnements d'entreprise sur site.,Familiarité avec l'inférence et le service de grands modèles linguistiques (LLM) (par exemple, VLLM).

Compétences techniques

Gestion du Big Data
Exploration de données
Science des données
Apprentissage profond
DevOps
Apprentissage automatique (ML)
Opérations d'apprentissage automatique
Langages de programmation
Kubernetes
OpenShift
Helm
Docker
Plateforme GenAI
Infrastructure GPU
NVIDIA A100/H100
Pipelines RAG
vLLM
NVIDIA NIM
TensorRT-LLM
Prometheus
Grafana
Pushgateway
Python
Bash
Rust
Inférence et service de LLM

Compétences interpersonnelles

Collaboration
Résolution de problèmes (impliqué par le dépannage et la construction de systèmes résilients)
Communication (impliqué par le soutien aux utilisateurs et la documentation)
Souci du détail (normes de codage, surveillance, alertes)

Heures de travail

37,5 heures/semaine

Avantages

Programme de rémunération globale (primes, avantages sociaux flexibles, rémunération concurrentielle, commissions, options d'achat d'actions)
Des leaders qui soutiennent le développement par le coaching et les opportunités de gestion
Opportunité de faire une différence et d'avoir un impact durable

À propos de l'entreprise

R

Royal Bank of Canada

La Banque Royale du Canada est une institution financière mondiale définie par sa raison d'être et guidée par des principes en vue de produire une performance de premier plan. En tant que plus grande banque du Canada, elle offre des services de banque aux particuliers et aux entreprises, de gestion de patrimoine et de marchés des capitaux à plus de 17 millions de clients dans le monde.

Axé sur la mission
Inclusif
Innovant
Collaboratif
Professionnel
Voir tous les emplois chez Royal Bank of Canada
Retour aux offres

    Nous respectons votre vie privée

    BerryMap utilise des cookies pour fournir des fonctionnalités essentielles, analyser l'utilisation et améliorer votre expérience. Vous pouvez personnaliser vos préférences ci-dessous.