Administrateur/trice Cluster IA (H/F)
5 days ago
Paris
CDS France est une Entreprise qui fournit des services informatiques de maintenance et de support sur site. CDS France est une Société par Actions Simplifiée, filiale à 100% du groupe Hewlett Packard Enterprise (HPE). CDS France a été créée en décembre 2009, pour assurer la maintenance des serveurs, systèmes de stockage et équipements réseaux des clients HPE. La société a ensuite élargi ses activités dans la maintenance multi-vendeurs (Dell, IBM, Sun), les services autour du Datacenter et l’assistance technique sur site. Depuis, CDS continue son développement et étend son champ d'action autour des services aux infrastructures. CDS est présente dans toute l’Europe. Descriptif du poste : Dans le cadre du renforcement de notre plateforme IA, nous recherchons un·e Administrateur·trice Cluster IA pour garantir la disponibilité, la performance et la stabilité de notre infrastructure de calcul (GPU/CPU), tout en assurant son exploitation et son évolution au quotidien. Rôle Vous êtes responsable du bon fonctionnement du cluster IA, de l’automatisation de son exploitation, de la supervision des performances et du support aux équipes utilisatrices. Missions principales • Assurer le MCO du cluster IA (nœuds GPU/CPU, stockage, réseau), • Administrer les systèmes Linux (Ubuntu) : installation, configuration, optimisation, • Exploiter et administrer l’environnement Kubernetes (déploiements, scaling, haute disponibilité), • Gérer la supervision et le monitoring via Prometheus et Grafana, • Traiter les incidents d’infrastructure, analyser les causes racines et réaliser les post-mortem, • Mettre en place des automatisations (Ansible, scripts Bash et/ou Python), • Gérer les jobs de calcul IA : scheduling GPU, quotas, priorités, • Piloter les mises à jour : OS, drivers NVIDIA, CUDA, Kubernetes, • Fournir le support infrastructure aux équipes internes, • Rédiger et maintenir la documentation d’exploitation Compétences techniques requises Infrastructure & Systèmes • Très bonne maîtrise de Linux (Ubuntu), • Conteneurisation : Docker, • Orchestration : Kubernetes, • GPU NVIDIA : drivers, CUDA, MIG, • Automatisation : Ansible, scripting Bash et/ou Python, • Environnements distribués Observabilité • Supervision et monitoring via Prometheus et Grafana Stockage • Connaissance des systèmes de fichiers distribués, • Stockage haute performance, • Stockage objet Réseau • Compréhension de l’architecture réseau de clusters, • VLAN, load balancing, principes de sécurité réseau Méthodologie & Process • Pratiques ITIL / ITSM, • Gestion des incidents et des changements, • Rigueur dans la documentation d’exploitation Profil recherché • Formation en informatique (Bac+3 à Bac+5 ou équivalent), • Expérience significative sur des infrastructures Linux/Kubernetes, • Intérêt marqué pour les environnements IA / HPC, • Autonomie, esprit d’analyse et sens du service, • Capacité à travailler en équipe et à documenter ses actions Ce que nous proposons • Un environnement technologique avancé autour de l’IA, • Des défis techniques à forte valeur ajoutée, • Un rôle clé au cœur de l’infrastructure, • Possibilités d’évolution et de montée en compétences Voulez-vous nous rejoindre ? #BeCDS Consultez notre politique de confidentialité : https://myrecruitment.hpecds.com/vacancies/privacy.html Vous pouvez accéder ici à notre politique RGPD : https://www.hpe.com/fr/fr/legal/privacy.html http://content.ext.hpe.com/sites/CountrySupport/imports/PrivacyNoticeRecruitment.pdf CDS soutient et applique le principe de l'égalité des chances. Nous recrutons et retenons les personnes les plus qualifiées, sans distinction de race, d'ethnicité, de religion, de sexe, d'orientation sexuelle, d'âge ou de handicap.