Data Scientist
hace 4 días
Madrid
Importante compañía internacional busca incorporar un/a Data Scientist con fuerte orientación a Machine Learning, NLP y analytics , capaz de desarrollar soluciones de datos end-to-end, desde la exploración y modelado hasta la puesta en producción en entornos cloud. La persona seleccionada trabajará en proyectos de alto impacto, desarrollando modelos predictivos y sistemas de análisis avanzados para apoyar la toma de decisiones y optimizar procesos de negocio. Responsabilidades principales Data Understanding, Analytics & Insights Recopilar, integrar y procesar datos provenientes de múltiples fuentes (bases de datos, APIs, event streams, documentos y logs). Realizar exploratory data analysis (EDA) para identificar patrones, tendencias, anomalías y problemas de calidad de datos. Definir métricas clave y diseñar análisis basados en hipótesis orientados a impacto de negocio. Comunicar resultados y recomendaciones a stakeholders mediante visualizaciones y narrativa clara. Tecnologías habituales: Python, SQL, pandas, NumPy, Jupyter, matplotlib, Plotly, Altair. Machine Learning: Regression, Classification & Clustering Desarrollo y validación de modelos de regresión y clasificación para predicción y soporte a la toma de decisiones. Implementación de técnicas de segmentación y clustering (k-means, hierarchical clustering, density-based). Uso de métodos basados en árboles y ensembles para generar modelos robustos y escalables. Librerías utilizadas: scikit-learn, XGBoost, LightGBM, CatBoost (valorado), imbalanced-learn. Representation Learning & NLP Desarrollo de embeddings para variables categóricas de alta cardinalidad mediante redes neuronales. Construcción de pipelines de procesamiento de texto : tokenización, vectorización, clasificación, similitud y clustering. Adaptación y fine-tuning de modelos basados en transformers cuando sea necesario. Tecnologías: PyTorch, Hugging Face Transformers, tokenizers, spaCy, NLTK. Model Evaluation, Robustness & Interpretability Diseño de frameworks de evaluación alineados con objetivos de negocio. Uso de métricas adecuadas según el problema: RMSE, MAE, ROC-AUC, PR-AUC, métricas de clustering, calibración. Análisis de errores, evaluación de sesgos, detección de drift y pruebas de robustez. Aplicación de técnicas de interpretabilidad de modelos y comunicación de resultados a audiencias técnicas y no técnicas. Productionisation & MLOps Colaboración con equipos de ingeniería para desplegar modelos y pipelines en producción. Contribución al diseño de sistemas ML escalables: generación de features, inferencia batch o near-real-time, versionado de modelos. Monitorización del rendimiento de modelos y detección de drift de datos. Implementación de estrategias de retraining automático . Herramientas habituales: GitHub, Pull Requests, Code Reviews, CI/CD, GitHub Actions (CD), Docker. Cloud & Data Infrastructure Desarrollo y despliegue de soluciones en entornos AWS . Integración con sistemas de almacenamiento y motores analíticos. Optimización de acceso y procesamiento de datos en entornos de alto volumen. Servicios relevantes: AWS S3, SageMaker (valorado), ECS (valorado). Data Governance & Responsible AI Aplicación de buenas prácticas de gobernanza del dato , calidad, trazabilidad y control de integridad. Garantizar cumplimiento normativo en materia de privacidad y seguridad de datos (GDPR). Implementación de principios de Responsible AI : fairness, explainability y trazabilidad. Requisitos Sólida experiencia en Python y Machine Learning , desarrollando modelos end-to-end. Experiencia práctica en regresión, clasificación y clustering , incluyendo limitaciones y pitfalls reales. Experiencia con PyTorch y frameworks NLP/embeddings (Hugging Face). Alto dominio de SQL y manipulación de datos con pandas . Experiencia trabajando en entornos AWS . Familiaridad con workflows de desarrollo colaborativo basados en GitHub . Capacidad de comunicación con stakeholders y trabajo en equipos multidisciplinares. ⭐ Valorable Conocimientos en optimización matemática o programación matemática. Experiencia en sectores operacionales o industriales complejos (aviación, transporte, logística, etc.). Experiencia con herramientas de MLOps (feature stores, model registries, monitoring). Conocimiento avanzado en librerías de gradient boosting (LightGBM, CatBoost) y deep learning para datos tabulares. Si estás interesado/a en esta oportunidad y te gustaría conocer más detalles, no dudes en aplicar para que podamos ponernos en contacto contigo, proporcionarte toda la información y resolver cualquier duda que puedas tener. Agap2 es una empresa que ofrece igualdad de oportunidades y se compromete a evaluar todas las candidaturas de forma justa en función de las habilidades, logros y experiencia. Animamos a todas las personas a presentar su candidatura; todas las solicitudes serán consideradas por igual independientemente de la raza, nacionalidad, género, edad, discapacidad, orientación sexual, identidad de género o cualquier otra característica personal.