Data Engineer - F/H - BERGER LEVRAULT
CDI
Contrat : CDI
Description du poste :
Nous recherchons un Data Engineer expérimenté pour rejoindre notre équipe au sein du pôle recherche et innovation
Votre mission principale sera de concevoir, développer et maintenir des solutions de traitement de données robustes et évolutives, intégrant entre autres des technologies d'intelligence artificielle et des Large Language Models (LLM). De nombreux projets très innovants sont en cours, incluant la création de pipelines de données complexes, des agents conversationnels, des moteurs de recherche avancés, et des solutions d'automatisation de l'analyse de documents.
Vous intégrerez la direction de la recherche et de l'innovation, et serez en charge, avec d'autres ingénieurs, de développer les solutions à mettre en production pour le groupe. Une forte interaction est attendue avec les clients et les business units pour comprendre la structure des données.
Vous collaborerez également avec une équipe pluridisciplinaire de chercheurs, apportant ainsi votre expertise technique dans un environnement académique et innovant.
L'environnement tech sera très varié et en évolution permanente, incluant des environnements technologiques tels que SpringBoot, LangChain, MongoDB, Neo4J, Weaviate, Redis, MLFlow, Apache NiFi, dbt, Apache Kafka, Apache Airflow, SODA, etc.
Les compétences requises pour naviguer dans cet environnement tech :
Excellente maîtrise de Java et Python
Expérience solide en conception de pipelines de données et en ingestion de données : Compréhension des processus ETL/ELT, définition et mise en place de flux de données robustes et optimisés.
Compétences en Data Stewarding : Gestion de la qualité des données, gouvernance des données, en utilisant des outils comme SODA pour contrôler et garantir la validité des jeux de données.
Maîtrise des micro-services et des principes de communication synchrones/asynchrones
Gestion de version et intégration continue : Compétences avancées en GitLab CI/CD
Orchestration de workflows : Expérience avec Apache Airflow pour la planification et la gestion de pipelines de données.
Expérience en DevOps et MLOps : (Docker, Kubernetes, Ansible) serait un plus
Lieu : Labège