fares boudraa - Consultant Big Data

Présentation

Expert Big Data avec plus de 10 ans d’expérience, j’accompagne les grandes institutions dans la construction et l’optimisation de leurs écosystèmes de données critiques. Spécialiste de la stack Cloudera (CDP, HDP), je combine une solide maîtrise de l'administration système avec une vision d'architecte infrastructure.

Mon expertise se concentre sur l'industrialisation des plateformes on-premise, l'automatisation de l'exploitation et la sécurisation des données (Ranger, Data Masking). J'interviens notamment pour garantir l'intégration fluide et performante des outils d'analyse comme Dataiku sur le Data Lake. Passionné par l’ingénierie système, je m'attache à transformer des infrastructures complexes en environnements robustes, sécurisés et parfaitement documentés.

CV réalisé sur DoYouBuzz

Expériences

Rattaché au service DAM de la Spuerkeess en tant que responsable de l’administration opérationnelle, de l’automatisation et de la sécurisation de la plateforme Cloudera Data Platform (CDP) on-premise.
Migration HDP vers CDP : Accompagnement et support technique lors de la migration des projets de l’ancienne infrastructure HDP vers le nouveau Data Lake CDP, assurant la résolution des incidents techniques et la continuité des flux.
Projet Stratégique uDWH : Support technique et administration de l’infrastructure Big Data dédiée au projet de modernisation de l'entrepôt de données (uDWH).
Administration & Scalabilité : Gestion du cycle de vie de la plateforme (upgrades, correctifs) et redimensionnement (resizing) des clusters selon les besoins applicatifs et l'évolution des volumes de données.
Automatisation & Scripting (Python/Bash) : Développement de solutions d'industrialisation avec rédaction systématique de la documentation technique associée :
- Gestion Hive : Automatisation du cycle de vie des tables (création, suppression, purges).
- Sécurité Ranger : Scripts de gestion dynamique et automatisée des policies d’accès.
- MCO Système : Industrialisation de l’autopatching (arrêt/relance ordonnancés des services).
Architecture & Sécurité : Participation aux ateliers d'architecture sur le Data Masking (anonymisation) et la Data Retention (politiques d'archivage).
Interface & Accompagnement Métier : * Support technique et expertise auprès des utilisateurs Dataiku pour l'optimisation de leurs projets sur le Data Lake.
Accompagnement des directions métiers dans l'appropriation des ressources et la mise en application des bonnes pratiques d'exploitation.
Support & Gouvernance : Support N2, gestion de l'identification via Apache Ranger et maintien en conditions opérationnelles (MCO) de la stack : HDFS, Hive, Kafka, Spark et Atlas.

Rattaché à l'équipe ADMIN des plateformes Big data, mon rôle est de contribuer à :
Installation et configuration des plateformes Big data.
Maintenir les plateformes Big data en état opérationnel.
Automatisation des déploiements.
Assistante aux utilisateurs des plateformes Big data
Environnement technique : cloudera CDP, redhat, Ansible, kerberos, rundeck, redmine.

Dans ma mission actuelle à La Poste, en tant qu'architecte solution, je travaille avec des chefs de projets technique, des product owner, des responsables de la sécurité et de la data management,.. sur plusieurs projets où la data représente un élément très important.
En effet, pour bien mener un projet, j'interviens sur :
- Analyser et comprendre les besoins métiers afin de proposer une ou plusieurs solutions possibles qui répondent au mieux aux besoins métier au sein du système existant.
- Concevoir et cadrer l'architecture de l'ensemble des solutions.
- Évaluer et faire un choix stratégique des technologies et outils de la solution.
- Évaluer les risques et les menaces liés à la solution, et proposer des dispositifs de maîtrise de risque (DMR) pour garantir la sécurité et la sérénité du système.
- Réaliser les différents blueprints d'architecture de la solution.
- Présenter la ou les solutions aux différents architectes (solution, fonctionnel et entreprise) pour que ça soit validé avant le Build.
CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Dremio, Tableau

Rattaché à l’équipe « Admin Archi » au sein du département SID du groupe Altice, cette équipe a pour charge de mettre à disposition les différents plateformes Big Data et de garantir la continuité du service Big Data. L’objectif de la mission est d'être un acteur majeur dans l'équipe pour l'administration de la plateforme.
o Installation et configuration des serveurs Hadoop.
o Superviser la plateforme Big Data et résoudre les incidents.
o Assister les utilisateurs de la plateforme en cas de besoin.
o Gestion de la sécurité sur la plateforme.
En tant qu'architecte: Réalisation de POC et étude sur la mise en place d'une plateforme Nifi.
- Etude et analyse stratégique de la solution Nifi vis-à-vis de la solution actuel (Flume).
- Identifier les différents scénarii possibles.
- Comprendre les différents enjeux liés à chaque scénario.
- Cadrage de l'architecture, conception technique et rédaction des blueprints pour chaque scénario.
- Détailler la cinématique, le planning et les cout de réalisation.
CDH, CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Nifi Registry, LDAP, Linux (RedHat), shell, HiveQL, MobaXterm,.

Rattaché à l’équipe « MOE Big Data» au sein du département SIT du groupe, qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data. Elle gère et maintient plusieurs clusters avec plusieurs environnements. L’objectif de la mission est d'être un acteur dans cette équipe en accomplissant plusieurs tâches.
Installation et configuration des serveurs liés à la plateforme BIG DATA (HDP, HDF et Elasticsearch).
Superviser la plateforme BIG DATA et résoudre les incidents.
Assister les utilisateurs de la plateforme BIG DATA en cas de besoin.
Gestion des policies sur l’accès aux données dans les différentes plateformes BIG DATA.
Environnement technologique :
HDP/HDF: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka.
Linux (RedHat), shell, MobaXterm, mRemote.
Elasticsearch, Kibana.

Rattaché à l’équipe « infrastructure Hadoop » qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data au sein de Natixis, elle gère et maintient plusieurs clusters en production. L’objectif de la mission est de renforcer cette équipe d’une part, et de travailler sur l’analyse des logs de plusieurs serveurs LDAP d’autre part.
1. Administration :
  o Installation et configuration des serveurs Hadoop.
  o Superviser la plateforme Hadoop et résoudre les incidents.
  o Assister les utilisateurs de la plateforme Hadoop en cas de besoin.
  o Gestion des policies sur l’accès aux données dans les différentes plateformes Hadoop.
1. Data Engineering :
  Conception, implémentation et industrialisation d’un projet pour l’analyse de fichiers de log de plusieurs serveurs LDAP pour des besoins d’infrastructures et des fins de sécurité.
  o Ingestion de différents fichiers de log de plusieurs sources de données dans HDFS
  o Développement de plusieurs scripts en PySpark de transformation de données.
   Parsing des fichiers de logs et nettoyage des données pour extraire les informations utiles.
   Enrichissement des données.
   Création des tables contenant les données sous un format bien structuré dans Hive.
   Indexer les données dans Solr.
   Sortir des statistiques sur l’utilisation de l’infrastructure (plus de 10 000 serveurs Linux).
   Détecter des anomalies (par exemple : connexion interdite).
  o Générer des dashboards illustrant l’évolution de l’utilisation de l’infra.
  o Requêter les données (dans Hive en utilisant LLAP) pour savoir « qui fait quoi, et quand ?» sur l’infra.
Environnement technologique :
HDP: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka, Storm, Solr, Linux (RedHat), shell, Python, Java, HiveQL, MobaXterm, Tableau Software, Banana, Superset, Control-M, UCS Manager, Xymon, Zabbix.

• Rattaché à l’équipe audit IT du groupe Saint Gobain (plus de 800 sociétés dans le monde entier), l’objectif de la mission est de réaliser un POC sur la migration des données vers une architecture BIG Data afin d’augmenter la capacité de stockage tout en augmentant la performance de la restitution des données.
• Installation et configuration des outils permettant de:
o Etablir une connexion entre SSIS et Impala.
o Etablir une connexion entre Tableau Software et Impala.
• Extraction des données depuis SAP de plusieurs entités du groupe.
• Ingestion des données dans HDFS
• Développement de plusieurs scripts en PySpark de transformation de données.
• Création de centaines de tables dans Impala et chargement des données.
• Evaluation de la capacité et de la performance du cluster.
• Recommandation sur le resizing du cluster afin de mieux répondre aux besoins.
• Environnement technologique :
Cloudera: Hadoop, Hive, Impala, hue, Cloudera manager, Spark, Linux : shell, Python, Jupyter, SQL Server, Sql, MobaXterm, SAP, Tableau Software, SSIS, Microsoft Virtual Studio.

Donner un cours de 4 jours sur "Big Data : Etat de l'art et administration Hadoop" aux étudiants en Master 2 (24 étudiants).

Donner un cours de 24 heures sur les fondamentaux de Big Data aux étudiants en Master 2 (14 étudiants).

Contexte international
Analyse des données en entré
Conception du modèle de données et choix des technos
Développement Big Data
Pilotage et gestion du projet
Environnement technologique :
Cloudera: hadoop, hive, impala, hbase, solr, hue, cloudera manager, LiIyIndexer, spark
Linux: shell
Python
Oracle
SqlDevelopper
Sql
MobaXterm
Swagger

Mission consistant à monter une plate-forme BigData avec Apache Hadoop en HDFS sur plusieurs Virtual Serveur (VM’s). L’objectif étant de fournir un ensemble des documents internes pour faire un « Etat de l’Art » sur l’installation, l’administration et l’exploitation d’une infrastructure HDFS avec les outils Cloudera Manager (CDH5).
Utilisation et installation de plusieurs maquettes/POC’s avec des modules complémentaires type Flink (traitement en temps réel), Spark et Kafka. Très bonne maîtrise des outils Apache autour des problématiques BigData.
Faire la veille technologique sur Apache Hadoop et tous les outils autour de Cloudera pour administrer une infrastructure HDFS.
Participation à plusieurs MeetUp’s de veille techno logique autour de HDFS, Spark et. Flink
Installation de CentOS 7 sur des plates-formes « VM ware » et « Virtual Box » en vue d’installer Hadoop HDFS et les composants Apache autour.
Installation des outils d’administration Cloudera ( CDH5) en vue de :
- Gérer les aspects réseaux.
- Configurer et déployer un cluster HDFS : Serveurs «Name Nodes » en configuration « High Availability » - HA ( « actif » et « standby » : composants annexes ZooKeeper, Zookeeper FailoverController, Journal Nodes, ) et non HA (« Primary » et « Secondary ») , Serveurs Data Nodes, architecture YARN ( Ressource Manager, Job History et Nodes Manager),Spark , MapReduce, Impala, Hive, Pig et outils d’ingestion ( Sqoop et Flume ), Data discovery (Solr), User interfaces (HUE). o Gestion des jobs , monitoring et maintenance : Ressource Manager web interface & HUE tools.
- Gestion de clusters HDFS, du monitoring et la gestion des logs via Cloudera Manager et commandes linux. - Installation et configuration de nouveaux composants : Flink, KAFKA, Spark
- Creation de script de connexion, d’import et export de données et lancement de jobs MapReduce.
- Comparaison de résultats avec des solutions Hive e Impala
- Participation à la création de jobs/programmes MapReduce selon besoins
Rédaction de plusieurs documents d’installation, d’administration et d’exploitation d’une infrastructure HDFS => « Etat de l’Art » Apache Hadoop HDFS.
Création de plusieurs POC’s pour installer, configurer et faire de tests de traitement avec Spark, Flink et Kafka
Création d’une chaîne BigData temps réel (« streaming ») avec Kafka et Flink.
Environnement technique: VMware, Vitual Box, CentOS 7, administration linux (shell), Apache Hadoop HDFS , outils d’administration Cloudera Manager, YARN, Spark, MapReduce, HIVE, PIG,
IMPALA, Flink, Kafka, Solr, ZooKeeper, HUE, Sqoop, Flume.

Formateur pour « M2i Formation » pour donner le cours de 4 jours sur l’administration Hadoop – Cloudera pour 4 stagiaires des sociétés diverses.
•Cours de 4 jours avec « TP’s » de la formation « Administration Hadoop – Cloudera (programme suivi : « Administrateur Apache Hadoop avec Cloudera ».
•Préparation du support de la formation (plus de 500 slides) et des travaux pratiques.
•Présentation et apprentissage sur l’utilisation des outils d’administration Hadoop avec Cloudera CDH5.
•Cadrage et préparation des environnements pour la Aformation.
•Excellent retour des participants sur les 4 jours de formation (notes à l’appui fourni par M2i Formation)

dans le cadre du développement d’un algorithme d’analyse de données tournant sur un dispositif de suivi de sommeil composé d'une multitude de capteurs, ma mission avait pour objectifs de :
- Améliorer le code existant pour optimiser:
  -- La collecte des informations fournies par la multitude de capteurs
  -- fixer les conditions d’acquisition de données permettant d’améliorer l'exploitation de ces données enregistrées par les capteurs.
- Exploiter en tant que "Data Analyst" les centaines de milliers de données pour déterminer au plus près de la réalité, les divers stades du sommeil.
- Mesurer les performances de l’algorithme.
- Présenter de manière graphique les résultats de ces analyses.
Dans le cadre de cette mission ponctuelle ; mes principales tâches se résument à :
- Installer, configurer et mettre en oeuvre sur un serveur (Linux Red Hat) distant et sur la machine en local les différents outils de développement adéquats.
- Gestion de sauvegarde, de transfert et de récupération des données enregistrées par les capteurs.
- Lire et comprendre les différents scripts de l’algorithme.
- Rédiger des documents décrivant l’architecture de l’algorithme.
- Effectuer plusieurs tests de l’algorithme sur de nouvelles données.
- Améliorer la visualisation des sorties pour une meilleure interprétation des résultats.
- Générer de nouvelles sorties de l’algorithme pour une meilleure évaluation des performances de l’algorithme.
- Contribuer à l’amélioration de l’algorithme par des méthodes d’apprentissage automatique.
Environnement technique : Octave, Perl, MySQL, Linux, PUTTY, WinSCP, JIRA, scripts shell.

Effectuer un état de l’art sur les symétries, leur détection et utilisation en intelligence artificielle.
Conception d’une nouvelle méthode pour la détection des symétries dans les bases de données transactionnelles.
Conception UML et réalisation de la méthode en améliorant une application, déjà existante, pour la recherche de symétries dans les bases de données transactionnelles.
Environnement et technologies: UML, JAVA, Argo UML, Eclipse, Linux.

Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser une application type P2P pour le partage des ressources software.
Analyse des besoins et rédaction du cahier des charges.
Conception UML et modélisation.
Développement et réalisation.
Environnement et technologies : JAVA J2EE, servlet, JSP, XML/XSD/XSL, UML, Tomcat, JSF, MVC, Oracle, JDBC/ODBC, SQL, JavaScript, HTML, CSS, Argo-UML.

Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser un site web pour la gestion des ressources d’hôtel.
Analyse des besoins et rédaction du cahier des charges.
Conception UML et modélisation.
Développement et réalisation.
Environnement et technologies : PHP, UML, WAMP, MySQL, SQL, JavaScript, HTML, CSS, Argo-UML.

Formations

Configuration, déploiement et maintenance d'un cluster Hadoop

Systèmes intelligents et applications

Sciences et technologies de l'information et de la communication

Math technique - option génie elétrique

Compétences

Hadoop (HDFS)

Expert
YARN

Expert
MapReduce

Expert
Cloudera Manager

Expert
Pig

Intermédiaire
Hive

Expert
Impala

Bon niveau
Hbase

Bon niveau
Solr

Bon niveau
ZooKeeper

Intermédiaire
Sqoop

Intermédiaire
FLume

Bon niveau
Spark

Avancé
Flink

Notions
Kafka

Bon niveau
Administration linux (shell)

Bon niveau
Virtual Box

Intermédiaire
VMware

Intermédiaire
Ambari

Expert
hue

Avancé
Ranger

Expert
NIFI

Bon niveau
Tableau

Bon niveau
ElasticSearch

Bon niveau
Kibana

Bon niveau

Ansible

Bon niveau

LDAP

Bon niveau
Kerberos

Bon niveau

MySQL

Bon niveau
Oracle

Intermédiaire
SQL

Avancé
JDBC/ODBC

Bon niveau

Java/J2EE

Bon niveau
Scala

Notions
XML/XSD/XSL

Avancé
C

Notions
Python

Bon niveau

Eclipse

Bon niveau
IntelliJ IDEA

Intermédiaire
Visual Studio

Intermédiaire

MobaXterm

Avancé
Putty

Avancé
mRemote

Avancé
WinSCP

Bon niveau
Keepass

Bon niveau
JIRA

Avancé

ACP

Avancé
AFC

Bon niveau
regeression

Avancé
neural network

Avancé
K-means

Avancé
K-NN

Avancé
desicion tree

Avancé
random forest

Avancé

SCRUM

Bon niveau
Merise

Bon niveau
UML

Bon niveau

Windows

Avancé
Linux

Avancé

Arabe

Expert
Français

Avancé
Anglais

Bon niveau

Centres d'intérêt

Meetups
Workshops

Moto (permis A)
Aviation légère (préparation PPL)
Saut en parachute (PAC)
Vélo
VanLife
Roadtrip
Plongée sous marine (niveau 1)

Photographie
Création de vidéos
Drone

Films
Documentaires

foot
lutte
course à pieds
vélo
musculation
Boxe française
coaching fitness

actualité
philosophie
forme, cuisine et nutrition
Développement personnel

Votre navigateur est obsolète !

Administrateur/ Architecte technique Big Data

Administrateur big data

Architecte Solution Big Data

System/Big Data Admin/Architecte

Assistant Maîtrise d'Oeuvre Big Data

Big Data Engineer/Hadoop administrator

Consultant Big Data

Big Data Engineer

Formateur occasionnel Big Data

Formateur Big Data

DATA ENGINEER (ARCHITECT - DEVELOPER BI/BIG DATA)i

Administrateur BigData « Apache Hadoop » avec Cloudera Manager

Formateur « Administration Hadoop – Cloudera »

Ingénieur en algorithme et fusion de données

Concepteur développeur Java

Concepteur développeur Java J2EE

Développeur PHP/ MySQL

Elasticsearch Engineer 2

Elasticsearch

Elasticsearch Engineer 1

Elasticsearch

Cloudera Apache Hadoop Administrator

Cloudera

MASTER 2 SIA

Université d'Artois

MASTER 2 STIC

Université Badji Mokhtar de Annaba

Baccalauréat

Lycée de BESBES

Big Data

DevOps

Security

Databases

Programming languages

IDE

Tools

Data analysis and machine learning

Methodologies

Operating Systems

Languages

Extra-pro

Sorties

Arts

Cinéma

Sport

Lectures