Ce stage chez RBC SA&I consiste à déplacer des modèles d'IA haute performance du cloud vers des appareils de périphérie. Le stagiaire se concentrera sur l'optimisation des modèles pour une inférence à faible latence, en assurant la sécurité et la confidentialité des données sur des appareils aux ressources limitées, en particulier pour les grands modèles linguistiques (LLM) et les modèles de vision par ordinateur. Le rôle implique la recherche et la mise en œuvre de la compression de modèles, le déploiement de moteurs d'inférence sur du matériel local et l'optimisation des pipelines pour des applications financières en temps réel.
Rechercher et implémenter des techniques de compression de modèles de pointe (LLM, CNN) pour le déploiement en périphérie, en utilisant des méthodes telles que la quantification (INT8, INT4), l'élagage (pruning) et la distillation de connaissances.,Prototyper et déployer des moteurs d'inférence sur du matériel local (par exemple, CPU/NPU mobiles, serveurs de périphérie ou systèmes embarqués) en utilisant des frameworks comme ONNX Runtime, TensorFlow Lite ou ExecuTorch.,Analyser et profiler les performances des modèles pour identifier les goulots d'étranglement ; optimiser les pipelines d'inférence pour des applications financières en temps réel (par exemple, détection de fraude, authentification biométrique).,Expérimenter des stratégies de calcul distribué pour diviser intelligemment la charge de travail entre l'appareil de périphérie et le cloud.,Développer des suites de tests rigoureuses pour mesurer la consommation d'énergie, l'empreinte mémoire et la vitesse d'inférence sur différentes cibles matérielles.
Actuellement inscrit à un programme de maîtrise ou à un programme de premier cycle avancé en informatique, en génie électrique ou dans un domaine connexe.,Maîtrise approfondie de Python et C++ (spécifiquement pour l'inférence haute performance).,Compréhension approfondie des frameworks de deep learning (PyTorch ou TensorFlow) et de leurs mécanismes internes.,Expérience avec les techniques de compression de modèles (Quantification, LoRA, etc.).,Familiarité avec les runtimes d'inférence de périphérie (par exemple, ONNX, TensorRT, CoreML ou TFLite).,Expérience de recherche ou publications en deep learning efficace ou en systèmes pour le ML (Atout).,Expérience en optimisation de l'inférence LLM (par exemple, vLLM, llama.cpp) (Atout).,Connaissance de la co-conception matériel-logiciel (comprendre comment la hiérarchie de la mémoire affecte les performances de l'IA) (Atout).,Exposition antérieure à l'industrie financière ou aux technologies de préservation de la vie privée (par exemple, apprentissage fédéré) (Atout).
Programme de maîtrise ou premier cycle avancé
40 heures/semaine
La Banque Royale du Canada est une institution financière mondiale définie par sa raison d'être et guidée par des principes en vue de produire une performance de premier plan. En tant que plus grande banque du Canada, elle offre des services de banque aux particuliers et aux entreprises, de gestion de patrimoine et de marchés des capitaux à plus de 17 millions de clients dans le monde.
BerryMap utilise des cookies pour fournir des fonctionnalités essentielles, analyser l'utilisation et améliorer votre expérience. Vous pouvez personnaliser vos préférences ci-dessous.