Expériences — fares boudraa

Présentation

Expert Big Data avec plus de 10 ans d’expérience, j’accompagne les grandes institutions dans la construction et l’optimisation de leurs écosystèmes de données critiques. Spécialiste de la stack Cloudera (CDP, HDP), je combine une solide maîtrise de l'administration système avec une vision d'architecte infrastructure.

Mon expertise se concentre sur l'industrialisation des plateformes on-premise, l'automatisation de l'exploitation et la sécurisation des données (Ranger, Data Masking). J'interviens notamment pour garantir l'intégration fluide et performante des outils d'analyse comme Dataiku sur le Data Lake. Passionné par l’ingénierie système, je m'attache à transformer des infrastructures complexes en environnements robustes, sécurisés et parfaitement documentés.

CV réalisé sur DoYouBuzz

Expériences

Rattaché au service DAM de la Spuerkeess en tant que responsable de l’administration opérationnelle, de l’automatisation et de la sécurisation de la plateforme Cloudera Data Platform (CDP) on-premise.
Migration HDP vers CDP : Accompagnement et support technique lors de la migration des projets de l’ancienne infrastructure HDP vers le nouveau Data Lake CDP, assurant la résolution des incidents techniques et la continuité des flux.
Projet Stratégique uDWH : Support technique et administration de l’infrastructure Big Data dédiée au projet de modernisation de l'entrepôt de données (uDWH).
Administration & Scalabilité : Gestion du cycle de vie de la plateforme (upgrades, correctifs) et redimensionnement (resizing) des clusters selon les besoins applicatifs et l'évolution des volumes de données.
Automatisation & Scripting (Python/Bash) : Développement de solutions d'industrialisation avec rédaction systématique de la documentation technique associée :
- Gestion Hive : Automatisation du cycle de vie des tables (création, suppression, purges).
- Sécurité Ranger : Scripts de gestion dynamique et automatisée des policies d’accès.
- MCO Système : Industrialisation de l’autopatching (arrêt/relance ordonnancés des services).
Architecture & Sécurité : Participation aux ateliers d'architecture sur le Data Masking (anonymisation) et la Data Retention (politiques d'archivage).
Interface & Accompagnement Métier : * Support technique et expertise auprès des utilisateurs Dataiku pour l'optimisation de leurs projets sur le Data Lake.
Accompagnement des directions métiers dans l'appropriation des ressources et la mise en application des bonnes pratiques d'exploitation.
Support & Gouvernance : Support N2, gestion de l'identification via Apache Ranger et maintien en conditions opérationnelles (MCO) de la stack : HDFS, Hive, Kafka, Spark et Atlas.

Rattaché à l'équipe ADMIN des plateformes Big data, mon rôle est de contribuer à :
Installation et configuration des plateformes Big data.
Maintenir les plateformes Big data en état opérationnel.
Automatisation des déploiements.
Assistante aux utilisateurs des plateformes Big data
Environnement technique : cloudera CDP, redhat, Ansible, kerberos, rundeck, redmine.

Dans ma mission actuelle à La Poste, en tant qu'architecte solution, je travaille avec des chefs de projets technique, des product owner, des responsables de la sécurité et de la data management,.. sur plusieurs projets où la data représente un élément très important.
En effet, pour bien mener un projet, j'interviens sur :
- Analyser et comprendre les besoins métiers afin de proposer une ou plusieurs solutions possibles qui répondent au mieux aux besoins métier au sein du système existant.
- Concevoir et cadrer l'architecture de l'ensemble des solutions.
- Évaluer et faire un choix stratégique des technologies et outils de la solution.
- Évaluer les risques et les menaces liés à la solution, et proposer des dispositifs de maîtrise de risque (DMR) pour garantir la sécurité et la sérénité du système.
- Réaliser les différents blueprints d'architecture de la solution.
- Présenter la ou les solutions aux différents architectes (solution, fonctionnel et entreprise) pour que ça soit validé avant le Build.
CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Dremio, Tableau

Rattaché à l’équipe « Admin Archi » au sein du département SID du groupe Altice, cette équipe a pour charge de mettre à disposition les différents plateformes Big Data et de garantir la continuité du service Big Data. L’objectif de la mission est d'être un acteur majeur dans l'équipe pour l'administration de la plateforme.
o Installation et configuration des serveurs Hadoop.
o Superviser la plateforme Big Data et résoudre les incidents.
o Assister les utilisateurs de la plateforme en cas de besoin.
o Gestion de la sécurité sur la plateforme.
En tant qu'architecte: Réalisation de POC et étude sur la mise en place d'une plateforme Nifi.
- Etude et analyse stratégique de la solution Nifi vis-à-vis de la solution actuel (Flume).
- Identifier les différents scénarii possibles.
- Comprendre les différents enjeux liés à chaque scénario.
- Cadrage de l'architecture, conception technique et rédaction des blueprints pour chaque scénario.
- Détailler la cinématique, le planning et les cout de réalisation.
CDH, CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Nifi Registry, LDAP, Linux (RedHat), shell, HiveQL, MobaXterm,.

Description de l'entreprise

Télécom et Média

Rattaché à l’équipe « MOE Big Data» au sein du département SIT du groupe, qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data. Elle gère et maintient plusieurs clusters avec plusieurs environnements. L’objectif de la mission est d'être un acteur dans cette équipe en accomplissant plusieurs tâches.
Installation et configuration des serveurs liés à la plateforme BIG DATA (HDP, HDF et Elasticsearch).
Superviser la plateforme BIG DATA et résoudre les incidents.
Assister les utilisateurs de la plateforme BIG DATA en cas de besoin.
Gestion des policies sur l’accès aux données dans les différentes plateformes BIG DATA.
Environnement technologique :
HDP/HDF: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka.
Linux (RedHat), shell, MobaXterm, mRemote.
Elasticsearch, Kibana.

Description de l'entreprise

La Régie autonome des transports parisiens (RATP) est un établissement public à caractère industriel et commercial de l'État assurant l'exploitation d'une partie des transports en commun de Paris et de sa banlieue

Site web de l'entreprise

https://www.ratp.fr/groupe-ratp

Rattaché à l’équipe « infrastructure Hadoop » qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data au sein de Natixis, elle gère et maintient plusieurs clusters en production. L’objectif de la mission est de renforcer cette équipe d’une part, et de travailler sur l’analyse des logs de plusieurs serveurs LDAP d’autre part.
1. Administration :
  o Installation et configuration des serveurs Hadoop.
  o Superviser la plateforme Hadoop et résoudre les incidents.
  o Assister les utilisateurs de la plateforme Hadoop en cas de besoin.
  o Gestion des policies sur l’accès aux données dans les différentes plateformes Hadoop.
1. Data Engineering :
  Conception, implémentation et industrialisation d’un projet pour l’analyse de fichiers de log de plusieurs serveurs LDAP pour des besoins d’infrastructures et des fins de sécurité.
  o Ingestion de différents fichiers de log de plusieurs sources de données dans HDFS
  o Développement de plusieurs scripts en PySpark de transformation de données.
   Parsing des fichiers de logs et nettoyage des données pour extraire les informations utiles.
   Enrichissement des données.
   Création des tables contenant les données sous un format bien structuré dans Hive.
   Indexer les données dans Solr.
   Sortir des statistiques sur l’utilisation de l’infrastructure (plus de 10 000 serveurs Linux).
   Détecter des anomalies (par exemple : connexion interdite).
  o Générer des dashboards illustrant l’évolution de l’utilisation de l’infra.
  o Requêter les données (dans Hive en utilisant LLAP) pour savoir « qui fait quoi, et quand ?» sur l’infra.
Environnement technologique :
HDP: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka, Storm, Solr, Linux (RedHat), shell, Python, Java, HiveQL, MobaXterm, Tableau Software, Banana, Superset, Control-M, UCS Manager, Xymon, Zabbix.

Site web de l'entreprise

http://www.orness.com

• Rattaché à l’équipe audit IT du groupe Saint Gobain (plus de 800 sociétés dans le monde entier), l’objectif de la mission est de réaliser un POC sur la migration des données vers une architecture BIG Data afin d’augmenter la capacité de stockage tout en augmentant la performance de la restitution des données.
• Installation et configuration des outils permettant de:
o Etablir une connexion entre SSIS et Impala.
o Etablir une connexion entre Tableau Software et Impala.
• Extraction des données depuis SAP de plusieurs entités du groupe.
• Ingestion des données dans HDFS
• Développement de plusieurs scripts en PySpark de transformation de données.
• Création de centaines de tables dans Impala et chargement des données.
• Evaluation de la capacité et de la performance du cluster.
• Recommandation sur le resizing du cluster afin de mieux répondre aux besoins.
• Environnement technologique :
Cloudera: Hadoop, Hive, Impala, hue, Cloudera manager, Spark, Linux : shell, Python, Jupyter, SQL Server, Sql, MobaXterm, SAP, Tableau Software, SSIS, Microsoft Virtual Studio.

Description de l'entreprise

Saint-Gobain est une entreprise française spécialisée dans la production, la transformation et distribution de matériaux.

Création 1665
Dates clés 1971 : Fusion avec Pont-à-Mousson
1996 : Rachat du groupe Point P
Fondateurs Colbert
Forme juridique Société anonyme
Action Euronext : SGO [archive]
Slogan Saint-Gobain construit votre futur & the future of glass since 1665
Siège social Courbevoie
Drapeau de France France
Direction Pierre-André de Chalendar, PDG
Actionnaires Wendel : 11,7 %
Actionnaires salariés : 7,5 %
Caisse des dépôts et consignations : 2,3 %
Autodétention : 0,6 %
Activité Producteur, transformateur et distributeur de matériaux de construction
Filiales Saint-Gobain Glass, Saint-Gobain Sekurit, Norton, Saint-Gobain SEFPRO (en), British Gypsum, CertainTeed, Ecophon, Eurocoustic, Gyproc, Isover, Saint-Gobain PAM, Placoplatre, Rigips, Weber, Groupe Lapeyre, La Plateforme du Bâtiment, Point P, Saint-Gobain Emballage, Solcera
Effectif 172 063 (en déc. 2016)
Site web Site officiel [archive]
Capitalisation 22,67 mds d'€ (23 avril 2015)
Fonds propres 17,870 milliards d'€ (2013)
Dette 11,912 milliards d'€ (2013)
Chiffre d’affaires 39,1 milliards d'€ (2016)
Résultat net 1,40 milliard d'€ (2016)

Site web de l'entreprise

https://www.saint-gobain.com/

Donner un cours de 4 jours sur "Big Data : Etat de l'art et administration Hadoop" aux étudiants en Master 2 (24 étudiants).

Description de l'entreprise

L’IPSSI, grande École d’Informatique, Web et Design Graphique implantée à Paris, Marne-la-Vallée, Brest et Toronto forme les étudiants du Bac au Bac+5 en alternance, aux métiers des nouvelles technologies.

L’IPSSI est une école reconnue par les plus grands acteurs du secteur de l’informatique et du web.
Plus de 600 étudiants par an sont formés en alternance à l’IPSSI. Faire le choix de l’alternance à l’IPSSI,
c’est bénéficier d’une formation d’excellence tout en cumulant une expérience professionnelle.

Depuis 1998, l’IPSSI place la proximité, l’innovation et l’employabilité de ses étudiants,
au cœur de sa pédagogie et délivre des diplômes reconnus par l’État niveaux 1, 2 et 3.

Site web de l'entreprise

https://www.ecole-ipssi.com/

Donner un cours de 24 heures sur les fondamentaux de Big Data aux étudiants en Master 2 (14 étudiants).

Description de l'entreprise

Ecole internationale spécialisée en informatique

Site web de l'entreprise

http://www.supinfo.com/

Contexte international
Analyse des données en entré
Conception du modèle de données et choix des technos
Développement Big Data
Pilotage et gestion du projet
Environnement technologique :
Cloudera: hadoop, hive, impala, hbase, solr, hue, cloudera manager, LiIyIndexer, spark
Linux: shell
Python
Oracle
SqlDevelopper
Sql
MobaXterm
Swagger

Mission consistant à monter une plate-forme BigData avec Apache Hadoop en HDFS sur plusieurs Virtual Serveur (VM’s). L’objectif étant de fournir un ensemble des documents internes pour faire un « Etat de l’Art » sur l’installation, l’administration et l’exploitation d’une infrastructure HDFS avec les outils Cloudera Manager (CDH5).
Utilisation et installation de plusieurs maquettes/POC’s avec des modules complémentaires type Flink (traitement en temps réel), Spark et Kafka. Très bonne maîtrise des outils Apache autour des problématiques BigData.
Faire la veille technologique sur Apache Hadoop et tous les outils autour de Cloudera pour administrer une infrastructure HDFS.
Participation à plusieurs MeetUp’s de veille techno logique autour de HDFS, Spark et. Flink
Installation de CentOS 7 sur des plates-formes « VM ware » et « Virtual Box » en vue d’installer Hadoop HDFS et les composants Apache autour.
Installation des outils d’administration Cloudera ( CDH5) en vue de :
- Gérer les aspects réseaux.
- Configurer et déployer un cluster HDFS : Serveurs «Name Nodes » en configuration « High Availability » - HA ( « actif » et « standby » : composants annexes ZooKeeper, Zookeeper FailoverController, Journal Nodes, ) et non HA (« Primary » et « Secondary ») , Serveurs Data Nodes, architecture YARN ( Ressource Manager, Job History et Nodes Manager),Spark , MapReduce, Impala, Hive, Pig et outils d’ingestion ( Sqoop et Flume ), Data discovery (Solr), User interfaces (HUE). o Gestion des jobs , monitoring et maintenance : Ressource Manager web interface & HUE tools.
- Gestion de clusters HDFS, du monitoring et la gestion des logs via Cloudera Manager et commandes linux. - Installation et configuration de nouveaux composants : Flink, KAFKA, Spark
- Creation de script de connexion, d’import et export de données et lancement de jobs MapReduce.
- Comparaison de résultats avec des solutions Hive e Impala
- Participation à la création de jobs/programmes MapReduce selon besoins
Rédaction de plusieurs documents d’installation, d’administration et d’exploitation d’une infrastructure HDFS => « Etat de l’Art » Apache Hadoop HDFS.
Création de plusieurs POC’s pour installer, configurer et faire de tests de traitement avec Spark, Flink et Kafka
Création d’une chaîne BigData temps réel (« streaming ») avec Kafka et Flink.
Environnement technique: VMware, Vitual Box, CentOS 7, administration linux (shell), Apache Hadoop HDFS , outils d’administration Cloudera Manager, YARN, Spark, MapReduce, HIVE, PIG,
IMPALA, Flink, Kafka, Solr, ZooKeeper, HUE, Sqoop, Flume.

Formateur pour « M2i Formation » pour donner le cours de 4 jours sur l’administration Hadoop – Cloudera pour 4 stagiaires des sociétés diverses.
•Cours de 4 jours avec « TP’s » de la formation « Administration Hadoop – Cloudera (programme suivi : « Administrateur Apache Hadoop avec Cloudera ».
•Préparation du support de la formation (plus de 500 slides) et des travaux pratiques.
•Présentation et apprentissage sur l’utilisation des outils d’administration Hadoop avec Cloudera CDH5.
•Cadrage et préparation des environnements pour la Aformation.
•Excellent retour des participants sur les 4 jours de formation (notes à l’appui fourni par M2i Formation)

dans le cadre du développement d’un algorithme d’analyse de données tournant sur un dispositif de suivi de sommeil composé d'une multitude de capteurs, ma mission avait pour objectifs de :
- Améliorer le code existant pour optimiser:
  -- La collecte des informations fournies par la multitude de capteurs
  -- fixer les conditions d’acquisition de données permettant d’améliorer l'exploitation de ces données enregistrées par les capteurs.
- Exploiter en tant que "Data Analyst" les centaines de milliers de données pour déterminer au plus près de la réalité, les divers stades du sommeil.
- Mesurer les performances de l’algorithme.
- Présenter de manière graphique les résultats de ces analyses.
Dans le cadre de cette mission ponctuelle ; mes principales tâches se résument à :
- Installer, configurer et mettre en oeuvre sur un serveur (Linux Red Hat) distant et sur la machine en local les différents outils de développement adéquats.
- Gestion de sauvegarde, de transfert et de récupération des données enregistrées par les capteurs.
- Lire et comprendre les différents scripts de l’algorithme.
- Rédiger des documents décrivant l’architecture de l’algorithme.
- Effectuer plusieurs tests de l’algorithme sur de nouvelles données.
- Améliorer la visualisation des sorties pour une meilleure interprétation des résultats.
- Générer de nouvelles sorties de l’algorithme pour une meilleure évaluation des performances de l’algorithme.
- Contribuer à l’amélioration de l’algorithme par des méthodes d’apprentissage automatique.
Environnement technique : Octave, Perl, MySQL, Linux, PUTTY, WinSCP, JIRA, scripts shell.

Effectuer un état de l’art sur les symétries, leur détection et utilisation en intelligence artificielle.
Conception d’une nouvelle méthode pour la détection des symétries dans les bases de données transactionnelles.
Conception UML et réalisation de la méthode en améliorant une application, déjà existante, pour la recherche de symétries dans les bases de données transactionnelles.
Environnement et technologies: UML, JAVA, Argo UML, Eclipse, Linux.

Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser une application type P2P pour le partage des ressources software.
Analyse des besoins et rédaction du cahier des charges.
Conception UML et modélisation.
Développement et réalisation.
Environnement et technologies : JAVA J2EE, servlet, JSP, XML/XSD/XSL, UML, Tomcat, JSF, MVC, Oracle, JDBC/ODBC, SQL, JavaScript, HTML, CSS, Argo-UML.

Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser un site web pour la gestion des ressources d’hôtel.
Analyse des besoins et rédaction du cahier des charges.
Conception UML et modélisation.
Développement et réalisation.
Environnement et technologies : PHP, UML, WAMP, MySQL, SQL, JavaScript, HTML, CSS, Argo-UML.

Votre navigateur est obsolète !

fares boudraa

Consultant Big Data

Administrateur/ Architecte technique Big Data

Administrateur big data

Architecte Solution Big Data

System/Big Data Admin/Architecte

Assistant Maîtrise d'Oeuvre Big Data

Big Data Engineer/Hadoop administrator

Consultant Big Data

Big Data Engineer

Formateur occasionnel Big Data

Formateur Big Data

DATA ENGINEER (ARCHITECT - DEVELOPER BI/BIG DATA)i

Administrateur BigData « Apache Hadoop » avec Cloudera Manager

Formateur « Administration Hadoop – Cloudera »

Ingénieur en algorithme et fusion de données

Concepteur développeur Java

Concepteur développeur Java J2EE

Développeur PHP/ MySQL