Ingeniero de Infraestructura IA / Arquitecto MLOps (AI Platform Engineer) - madrid
hace 4 días
Madrid
Buscamos un ingeniero de Devops, arquitecto MLOps para la definición, configuración, mantenimiento, despliegue y soporte de toda nuestra estructura IA y SaaS Será el responsable de la infraestructura para servicios SaaS con IA Funciones Fundamentales del Puesto. • Gestión de Infraestructura Base y Hardware:, • Despliegue, configuración y mantenimiento de servidores bare metal (ej. HPE ProLiant) con Ubuntu Server LTS., • Administración avanzada de GPUs (NVIDIA A100/H100/L4), incluyendo particionamiento (MIG) y optimización de recursos compartidos., • Administración de Kubernetes y Orquestación:, • Instalación y administración de clusters Kubernetes orientados a producción y alta seguridad (RKE2)., • Implementación de prácticas GitOps para el despliegue continuo y versionado de la infraestructura., • Despliegue de la Plataforma MLOps y Datos:, • Configuración de la capa de almacenamiento distribuido (Data Lakehouse) y bases de datos relacionales., • Integración de pipelines de datos (ETL/CDC) y herramientas de tracking de experimentos ML y registro de modelos., • Inferencia y Despliegue de Modelos (Serving):, • Configuración de motores de inferencia para servir modelos open source (LLMs, PyTorch, TensorFlow) de manera escalable y eficiente., • Despliegue de bases de datos vectoriales para habilitar arquitecturas RAG (Retrieval-Augmented Generation)., • Seguridad, Aislamiento y Multi-tenancy:, • Diseño e implementación de arquitecturas seguras para múltiples clientes: separación por namespaces, políticas de red estrictas, y gestión de identidades (SSO/IAM)., • Gestión segura de secretos, certificados y cifrado de datos en reposo y en tránsito., • Observabilidad y Monitorización:, • Despliegue de un stack completo de monitorización para la infraestructura (CPU, RAM, red), métricas específicas de GPU, y observabilidad del rendimiento de los modelos de IA (latencia, errores, data drift). 💻 Stack Tecnológico Fundamental (Requisitos Técnicos) 1. Infraestructura y Contenedores (Core): • OS: Linux (Ubuntu Server LTS)., • Orquestación: Kubernetes (específicamente RKE2) y gestión de red/Ingress (Cilium/Calico, MetalLB, NGINX/Traefik)., • Hardware/GPU: NVIDIA GPU Operator, CUDA, NVIDIA MIG (Multi-Instance GPU). 2. DevOps y Seguridad: • GitOps & CI/CD: Argo CD, Harbor (Registry privado)., • Identidad y Secretos: Keycloak (IAM/OIDC), Vault o External Secrets, cert-manager. 3. Datos y Almacenamiento: • Storage S3: MinIO., • Bases de Datos: PostgreSQL., • Orquestación de Datos: Apache Airflow. 4. Ecosistema IA / MLOps: • Tracking & Registry: MLflow., • Serving (Inferencia): KServe, NVIDIA Triton Inference Server, vLLM., • Bases Vectoriales (RAG): Qdrant (y conocimiento de pgvector). 5. Observabilidad: • Stack de Monitorización: Prometheus, Grafana, Loki., • Métricas GPU: DCGM Exporter., • Trazabilidad: OpenTelemetry. 🚀 Tecnologías Valorable • Data Lakehouse & Ingesta: Airbyte, Apache NiFi, Debezium, Kafka, Apache Iceberg, dbt., • Serving & MLOps Avanzado: Kubeflow, Ray Serve / KubeRay, BentoML., • Bases Vectoriales a gran escala: Milvus. 💡 Perfil Ideal Ingeniero DevOps/SysAdmin que ha evolucionado hacia el ecosistema de IA. Debe tener una mentalidad orientada a producto y a la prestación de servicios B2B, entendiendo que la seguridad, el aislamiento de datos entre distintos clientes y la alta disponibilidad son tan importantes como el propio rendimiento de los modelos. Ofrecemos incorporacion a importante proyecto en fase inicial con gran potencialidad de crecimiento.