Mohammed E.

DATA ENGINEER

700 dollar

Mon expérience

Voir plus

Meritis pour Schneider ElectricJanuary 2019 - Présent

Dans le cadre de plusieurs projets :
• Data Lake existant créé il y a 5 ans à faire évoluer
• Construction de nouveaux projets
• Accompagnement des clients dans l’ingestion des données et développement et amélioration du Raw Data Lake

Projet 1 : Création d’un ETL (Unified Data Layer (UDL))
Afin de consolider les données et répondre aux besoins des utilisateurs (Clients, data scientistes, Tableau, Dashbords…), nous avons créé un Framework ETL nommé Unified Data Layer (UDL) qui permet d’extraire les données ingérées dans le Data Lake et les consolider afin de produire une ou plusieurs tables cibles définies selon un cahier de charge par l’utilisateur.

Réalisations :
• Développement des composantes de l’UDL :
➢ Extraction
➢ Consolidation
➢ Homogénéisation, Standardisation
➢ Merge (Fusion de données)
• Automatisation des tests : Test et validation du comportement de chacune des composantes ci-dessus
• Documentation du Framework UDL et de son utilisation

Stack Technique :
• Langages : Python, SQL, Git
• AWS Cloud: EMR (Presto, Hive), EC2, Redshift, Redshift Spectrum, Lambda, DynamoDB, S3, RDS, System Manager, CodeCommit, CloudFormation (~Terraforme)
• Documentation et Agilité : Scrum, Jira, Confluence

Projet 2 : Renforcement du Raw Data Layer (RDL)
Répondre aux nouvelles demandes d’ingestion ainsi que l’enrichissement du Data Lake existant

Réalisations :
• Conception, développement et enrichissement des patterns d’ingestion (Upsert Delete, Append, Termination, Dry Run…)
• Ingestion de données et des metadata de différentes sources données à travers le monde.
• Support RDL (environnements Développement, Préproduction (QA), Production)
• Gestion des droits d’accès aux données et du cycle de vie dans S3
• Déploiement du code
• Automatisation de tâches de support en python
• Tests automatiques
• Documentation

Stack Technique :
• Langages : PySpark, Python, SQL, Git
• AWS Cloud: EC2, Lambda, EMR (Spark, Hive, Presto), S3, DynamoDB, RDS, Redshift, CloudFormation (~Terraforme), StepFunction, CodeCommit, System Manager
• Documentation et Agilité : Scrum, Jira, Confluence

Projet 3 : Mise en place de la réplication de données d’un autre environnement AWS
• Mise en place d’une data pipeline de réplication de données depuis Redshift appartenant à une autre région AWS vers Redshift de notre région AWS.
• Automatisation du Framework réplication
• Tests automatiques
• Documentation

Stack Technique :
• Langages : Python, SQL, Git
• AWS Cloud: Lambda, Redshift, CloudFormation, StepFunction, CodeCommit, System Manager
• Documentation et Agilité : Scrum, Jira, Confluence
Voir plus

Meritis pour Société GénéraleDecember 2017 - December 2018

• Automatisation de taches
• Optimisation du traitement et de la gestion de données
• Migration d’outils VBA sous Python
• Génération de Mails automatiques connectés aux données
• Stockage automatique de données dans Access
• Découpage de fichiers de données
• Création d’exécutables/interfaces graphiques (Data Visualisation) sous Python (Pandas, kivy)
• Optimisation des outils de traitement de donnée
• Documentation

Stack Technique :
• Langages : Python (Pandas, Kivy…), SQL, VBA
• Documentation et Agilité : Scrum, Word
Voir plus

EDFFebruary 2017 - September 2017

Projet : Création d’un outil statistique de comparaison des installations industrielles d’un secteur donné selon leur performance environnementale globale.

Réalisations :
• Analyse statistique des données : ACP, ACH, K-means, Front de Pareto, tests de corrélation
• Traitement de données : Extraction, reconstruction de données manquantes (MissForest), optimisation du traitement de données
• Développement d’une interface graphique permettant d’appliquer l’outil statistique sous Rshiny
• Documentation

Stack Technique :
• Langages : R, SQL
Voir plus

April Santé PrévoyanceSeptember 2015 - February 2016

Réalisations :
• Etude de l’impact d’une réduction sur la production d’affaires sous SAS et Excel
• Prédiction des prestations santé à régler aux clients chaque année sous SAS et Excel
• Traitement de données : Extraction des bases de données, optimisation et automatisation du traitement de données
• Analyse de données : régressions linéaires, calcul statistiques sélection des variables, test et validation des modèles
• Documentation

Stack Technique :
• Langages : SQL
• Logiciel : SAS, Excel

Mes compétences

VBA, Terraform, SQL, Spark, Scrum, R Language, Python, PySpark, Pandas, Linux, Kivy, Jira, Hive, Hadoop, Git, DynamoDB, Data Visualization, Confluence, Cloudera CDH, AWS Lambda, AWS, Amazon Web Services S3, Amazon Web Services EC2, Amazon Web Services (AWS), Amazon Relational Database Service (RDS), Amazon Redshift, Amazon Elastic MapReduce (EMR), Amazon CloudFormation