Platform Reliability/QA Engineer - gijón
20 hours ago
Gijón
Responsable de que el sistema funcione 24/7, de detectar regresiones antes que los clientes, de mantener al día credenciales/dominios y de construir — con apoyo agéntico — la infraestructura de observabilidad, alertas y QA. Este perfil es multiplicador: libera a los developers de tareas de soporte, monitoreo y verificación, y empuja la confiabilidad del sistema con ayuda de agentes. ResponsabilidadesQuality assurance & testing • Diseñar y mantener suites de tests end-to-end sobre flujos críticos (login, alta de paciente, facturación, captura de audio, citas)., • Construir y mantener tests de regresión que se ejecutan automáticamente antes de cada despliegue., • Hacer smoke tests post-deploy en cada tenant que aplique., • Levantar y mantener un entorno de staging que refleje producción., • Reportar bugs con repro mínimo Monitoreo de la plataforma • Diseñar y mantener el stack de observabilidad: métricas, logs centralizados, dashboards, healthchecks por servicio., • Construir alertas accionablespara: caídas de servicios, latencia anómala, errores 5xx, colas estancadas, fallos de cron jobs, espacio en disco, conexiones DB., • On-call ligero (con apoyo agéntico para triaging inicial) durante horas hábiles y rotación pactada fuera de horario., • Post-mortems breves y accionables tras cualquier incidente. Monitoreo de cuentas y dependencias externas • Llevar inventario y vigilancia activa de servicios de terceros AWS, Stripe, Twilio, dominios, certificados SSL, licencias. Alertas antes de que se agoten., • Renovación proactiva de dominios, certificados, licencias., • Vigilar límites de uso y proyecciones de costo mensual; identificar anomalías., • Mantener un dashboard único con el estado de todas las cuentas externas.Monitoreo de repos y código, • Mantener al día las dependencias, • Vigilar CVE / vulnerabilidades en dependencias críticas., • Auditar PRs antes de merge., • Mantener CI green: si hay tests rotos, los persigue hasta cerrar.Soporte, • Primera línea de soporte técnico interno (al equipo y, eventualmente, a clínicas usuarias)., • Triage de tickets: distingue bug real vs error de usuario vs configuración faltante., • Mantener una base de conocimiento (FAQ, runbooks) que crece con cada incidente. Uso activo de IA • Agentes de monitoreo: construye agentes que revisan logs, dashboards y métricas y le entregan resúmenes ejecutables (no streams crudos)., • Agentes de QA: usa agentes para generar casos de test a partir de specs/PRs, ejecutar regresiones en background y reportar diferencias., • Agentes de triage: usa agentes para clasificar tickets entrantes, sugerir runbook aplicable y escalar solo lo que necesita humano., • Agentes de auditoría: usa agentes para revisar diffs de PRs grandes, encontrar inconsistencias y sugerir áreas a testear., • No delega al modelo decisiones de severidad ni comunicación con cliente final. Stack que vas a tocar Imprescindible: • Conocimiento operativo de Linux / Bash, • Docker (logs, exec, compose), • Git y revisión de PRs, • Alguna herramienta de observabilidad (Grafana, Datadog, New Relic, CloudWatch, Sentry, Prometheus — al menos una con experiencia real), • Alguna herramienta de testing E2E (Playwright, Cypress, Puppeteer), • Postman / Insomnia / .http files para validar APIs, • SQL básico (consultar la DB para reproducir bugs), • GitHub Actions u otro CI/CD Ayuda mucho tener exposición: • AWS CloudWatch, S3, SQS, EC2 (entorno actual), • Sentry o equivalente para tracking de errores, • Statuspage o equivalente para comunicación de incidentes, • Scripting (Python o Node) para automatizar checks recurrentes, • Bases de datos (PostgreSQL, conexiones, queries de diagnóstico), • Healthcare / data sensible (HIPAA, GDPR conceptualmente — no es legal advisor pero entiende implicaciones) Experiencia esperada • Experiencia demostrable usando herramientas agénticas para resolver problemas reales (Claude Code, Cursor, Codex en flows de scripting/automation/QA). Comparte un ejemplo., • Experiencia en roles de SRE / DevOps / QA / Soporte técnico / Platform Engineer., • Experiencia construyendo o manteniendo alertas accionables (sabe distinguir signal de ruido)., • Capacidad demostrada de escribir runbooks claros., • Disciplina obsesiva con el detalle. Este rol es el último filtro antes de que un bug llegue al cliente., • Comunicación clara en español (escrita y verbal). Deseable • Experiencia en startups pequeñas donde se hace de todo., • Experiencia construyendo scripts/agentes de automatización que reemplazan trabajo manual recurrente., • Repositorios públicos con automation scripts, runbooks, dashboards., • Experiencia con status pages / incident communication., • Conocimiento de billing y FinOps (vigilancia de costos cloud)., • Experiencia en healthcare / fintech (compliance, datos sensibles). Soft skills críticos • Pensamiento de checklist. Detallista de los errores, • Paranoia productiva. Asume que algo se va a romper y se prepara., • Productivo y proactivo bajo estrés. Triage, prioriza, ejecuta, comunica., • Construye en lugar de tolerar. Si algo te despierta dos veces, lo automatizadas