Tech Data Scientist
hace 2 días
Barcelona
Importante compañía internacional busca incorporar un/a Data Scientist con fuerte orientación a Machine Learning, NLP y analytics , capaz de desarrollar soluciones de datos end-to-end, desde la exploración y modelado hasta la puesta en producción en entornos cloud. La persona seleccionada trabajará en proyectos de alto impacto, desarrollando modelos predictivos y sistemas de análisis avanzados para apoyar la toma de decisiones y optimizar procesos de negocio. &##Data Understanding, Analytics & Insights Recopilar, integrar y procesar datos provenientes de múltiples fuentes (bases de datos, APIs, event streams, documentos y logs). Realizar exploratory data analysis (EDA) para identificar patrones, tendencias, anomalías y problemas de calidad de datos. Definir métricas clave y diseñar análisis basados en hipótesis orientados a impacto de negocio. Python, SQL, pandas, NumPy, Jupyter, matplotlib, Plotly, Altair. Machine Learning: Regression, Classification & Clustering Desarrollo y validación de modelos de regresión y clasificación para predicción y soporte a la toma de decisiones. scikit-learn, XGBoost, LightGBM, CatBoost (valorado), imbalanced-learn. Construcción de pipelines de procesamiento de texto : tokenización, vectorización, clasificación, similitud y clustering. PyTorch, Hugging Face Transformers, tokenizers, spaCy, NLTK. Análisis de errores, evaluación de sesgos, detección de drift y pruebas de robustez. Aplicación de técnicas de interpretabilidad de modelos y comunicación de resultados a audiencias técnicas y no técnicas. Colaboración con equipos de ingeniería para desplegar modelos y pipelines en producción. Contribución al diseño de sistemas ML escalables: generación de features, inferencia batch o near-real-time, versionado de modelos. Monitorización del rendimiento de modelos y detección de drift de datos. GitHub, Pull Requests, Code Reviews, CI/CD, GitHub Actions (CD), Docker. Cloud & Data Infrastructure Desarrollo y despliegue de soluciones en entornos AWS . Integración con sistemas de almacenamiento y motores analíticos. Optimización de acceso y procesamiento de datos en entornos de alto volumen. AWS S3, SageMaker (valorado), ECS (valorado). Data Governance & Responsible AI Aplicación de buenas prácticas de gobernanza del dato , calidad, trazabilidad y control de integridad. Garantizar cumplimiento normativo en materia de privacidad y seguridad de datos (GDPR). Sólida experiencia en Python y Machine Learning , desarrollando modelos end-to-end. Experiencia práctica en regresión, clasificación y clustering , incluyendo limitaciones y pitfalls reales. Experiencia con PyTorch y frameworks NLP/embeddings (Hugging Face). Alto dominio de SQL y manipulación de datos con pandas . Experiencia trabajando en entornos AWS . Familiaridad con workflows de desarrollo colaborativo basados en GitHub . Conocimientos en optimización matemática o programación matemática. Experiencia en sectores operacionales o industriales complejos (aviación, transporte, logística, etc.). Experiencia con herramientas de MLOps (feature stores, model registries, monitoring). Conocimiento avanzado en librerías de gradient boosting (LightGBM, CatBoost) y deep learning para datos tabulares. Agap2 es una empresa que ofrece igualdad de oportunidades y se compromete a evaluar todas las candidaturas de forma justa en función de las habilidades, logros y experiencia. todas las solicitudes serán consideradas por igual independientemente de la raza, nacionalidad, género, edad, discapacidad, orientación sexual, identidad de género o cualquier otra característica personal.