Votre navigateur est obsolète !

Pour une expériencenet et une sécurité optimale, mettez à jour votre navigateur. Mettre à jour maintenant

×

fares boudraa

Consultant Big Data

fares boudraa
35 ans
Permis de conduire
Belair (1650) Luxembourg
Situation professionnelle
En poste
Ouvert aux opportunités
Présentation
Expert Big Data avec plus de 10 ans d’expérience, j’accompagne les grandes institutions dans la construction et l’optimisation de leurs écosystèmes de données critiques. Spécialiste de la stack Cloudera (CDP, HDP), je combine une solide maîtrise de l'administration système avec une vision d'architecte infrastructure.

Mon expertise se concentre sur l'industrialisation des plateformes on-premise, l'automatisation de l'exploitation et la sécurisation des données (Ranger, Data Masking). J'interviens notamment pour garantir l'intégration fluide et performante des outils d'analyse comme Dataiku sur le Data Lake. Passionné par l’ingénierie système, je m'attache à transformer des infrastructures complexes en environnements robustes, sécurisés et parfaitement documentés.
CV réalisé sur DoYouBuzz
Expériences
  • Rattaché au service DAM de la Spuerkeess en tant que responsable de l’administration opérationnelle, de l’automatisation et de la sécurisation de la plateforme Cloudera Data Platform (CDP) on-premise.
  • Migration HDP vers CDP : Accompagnement et support technique lors de la migration des projets de l’ancienne infrastructure HDP vers le nouveau Data Lake CDP, assurant la résolution des incidents techniques et la continuité des flux.
  • Projet Stratégique uDWH : Support technique et administration de l’infrastructure Big Data dédiée au projet de modernisation de l'entrepôt de données (uDWH).
  • Administration & Scalabilité : Gestion du cycle de vie de la plateforme (upgrades, correctifs) et redimensionnement (resizing) des clusters selon les besoins applicatifs et l'évolution des volumes de données.
  • Automatisation & Scripting (Python/Bash) : Développement de solutions d'industrialisation avec rédaction systématique de la documentation technique associée :
    • Gestion Hive : Automatisation du cycle de vie des tables (création, suppression, purges).
    • Sécurité Ranger : Scripts de gestion dynamique et automatisée des policies d’accès.
    • MCO Système : Industrialisation de l’autopatching (arrêt/relance ordonnancés des services).
  • Architecture & Sécurité : Participation aux ateliers d'architecture sur le Data Masking (anonymisation) et la Data Retention (politiques d'archivage).
  • Interface & Accompagnement Métier : * Support technique et expertise auprès des utilisateurs Dataiku pour l'optimisation de leurs projets sur le Data Lake.
  • Accompagnement des directions métiers dans l'appropriation des ressources et la mise en application des bonnes pratiques d'exploitation.
  • Support & Gouvernance : Support N2, gestion de l'identification via Apache Ranger et maintien en conditions opérationnelles (MCO) de la stack : HDFS, Hive, Kafka, Spark et Atlas.

Administrateur big data

Urssaf
Août 2024 à 2025
Freelance
Paris
France
  • Rattaché à l'équipe ADMIN des plateformes Big data, mon rôle est de contribuer à :
    Installation et configuration des plateformes Big data.
    Maintenir les plateformes Big data en état opérationnel.
    Automatisation des déploiements.
    Assistante aux utilisateurs des plateformes Big data
  • Environnement technique : cloudera CDP, redhat, Ansible, kerberos, rundeck, redmine.
  • Dans ma mission actuelle à La Poste, en tant qu'architecte solution, je travaille avec des chefs de projets technique, des product owner, des responsables de la sécurité et de la data management,.. sur plusieurs projets où la data représente un élément très important.
    En effet, pour bien mener un projet, j'interviens sur :
    • Analyser et comprendre les besoins métiers afin de proposer une ou plusieurs solutions possibles qui répondent au mieux aux besoins métier au sein du système existant.
    • Concevoir et cadrer l'architecture de l'ensemble des solutions.
    • Évaluer et faire un choix stratégique des technologies et outils de la solution.
    • Évaluer les risques et les menaces liés à la solution, et proposer des dispositifs de maîtrise de risque (DMR) pour garantir la sécurité et la sérénité du système.
    • Réaliser les différents blueprints d'architecture de la solution.
    • Présenter la ou les solutions aux différents architectes (solution, fonctionnel et entreprise) pour que ça soit validé avant le Build.
  • CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Dremio, Tableau
  • Rattaché à l’équipe « Admin Archi » au sein du département SID du groupe Altice, cette équipe a pour charge de mettre à disposition les différents plateformes Big Data et de garantir la continuité du service Big Data. L’objectif de la mission est d'être un acteur majeur dans l'équipe pour l'administration de la plateforme.
  • o Installation et configuration des serveurs Hadoop.
    o Superviser la plateforme Big Data et résoudre les incidents.
    o Assister les utilisateurs de la plateforme en cas de besoin.
    o Gestion de la sécurité sur la plateforme.
  • En tant qu'architecte: Réalisation de POC et étude sur la mise en place d'une plateforme Nifi.

    • Etude et analyse stratégique de la solution Nifi vis-à-vis de la solution actuel (Flume).
    • Identifier les différents scénarii possibles.
    • Comprendre les différents enjeux liés à chaque scénario.
    • Cadrage de l'architecture, conception technique et rédaction des blueprints pour chaque scénario.
    • Détailler la cinématique, le planning et les cout de réalisation.
  • CDH, CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Nifi Registry, LDAP, Linux (RedHat), shell, HiveQL, MobaXterm,.
  • Rattaché à l’équipe « MOE Big Data» au sein du département SIT du groupe, qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data. Elle gère et maintient plusieurs clusters avec plusieurs environnements. L’objectif de la mission est d'être un acteur dans cette équipe en accomplissant plusieurs tâches.
  • Installation et configuration des serveurs liés à la plateforme BIG DATA (HDP, HDF et Elasticsearch).
  • Superviser la plateforme BIG DATA et résoudre les incidents.
  • Assister les utilisateurs de la plateforme BIG DATA en cas de besoin.
  • Gestion des policies sur l’accès aux données dans les différentes plateformes BIG DATA.
  • Environnement technologique :
    HDP/HDF: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka.
    Linux (RedHat), shell, MobaXterm, mRemote.
    Elasticsearch, Kibana.
  • Rattaché à l’équipe « infrastructure Hadoop » qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data au sein de Natixis, elle gère et maintient plusieurs clusters en production. L’objectif de la mission est de renforcer cette équipe d’une part, et de travailler sur l’analyse des logs de plusieurs serveurs LDAP d’autre part.
    1. Administration :
      o Installation et configuration des serveurs Hadoop.
      o Superviser la plateforme Hadoop et résoudre les incidents.
      o Assister les utilisateurs de la plateforme Hadoop en cas de besoin.
      o Gestion des policies sur l’accès aux données dans les différentes plateformes Hadoop.
    1. Data Engineering :
      Conception, implémentation et industrialisation d’un projet pour l’analyse de fichiers de log de plusieurs serveurs LDAP pour des besoins d’infrastructures et des fins de sécurité.
      o Ingestion de différents fichiers de log de plusieurs sources de données dans HDFS
      o Développement de plusieurs scripts en PySpark de transformation de données.
       Parsing des fichiers de logs et nettoyage des données pour extraire les informations utiles.
       Enrichissement des données.
       Création des tables contenant les données sous un format bien structuré dans Hive.
       Indexer les données dans Solr.
       Sortir des statistiques sur l’utilisation de l’infrastructure (plus de 10 000 serveurs Linux).
       Détecter des anomalies (par exemple : connexion interdite).
      o Générer des dashboards illustrant l’évolution de l’utilisation de l’infra.
      o Requêter les données (dans Hive en utilisant LLAP) pour savoir « qui fait quoi, et quand ?» sur l’infra.
  • Environnement technologique :
    HDP: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka, Storm, Solr, Linux (RedHat), shell, Python, Java, HiveQL, MobaXterm, Tableau Software, Banana, Superset, Control-M, UCS Manager, Xymon, Zabbix.
  • • Rattaché à l’équipe audit IT du groupe Saint Gobain (plus de 800 sociétés dans le monde entier), l’objectif de la mission est de réaliser un POC sur la migration des données vers une architecture BIG Data afin d’augmenter la capacité de stockage tout en augmentant la performance de la restitution des données.
    • Installation et configuration des outils permettant de:
    o Etablir une connexion entre SSIS et Impala.
    o Etablir une connexion entre Tableau Software et Impala.
    • Extraction des données depuis SAP de plusieurs entités du groupe.
    • Ingestion des données dans HDFS
    • Développement de plusieurs scripts en PySpark de transformation de données.
    • Création de centaines de tables dans Impala et chargement des données.
    • Evaluation de la capacité et de la performance du cluster.
    • Recommandation sur le resizing du cluster afin de mieux répondre aux besoins.
    • Environnement technologique :
    Cloudera: Hadoop, Hive, Impala, hue, Cloudera manager, Spark, Linux : shell, Python, Jupyter, SQL Server, Sql, MobaXterm, SAP, Tableau Software, SSIS, Microsoft Virtual Studio.
  • Donner un cours de 4 jours sur "Big Data : Etat de l'art et administration Hadoop" aux étudiants en Master 2 (24 étudiants).
  • Donner un cours de 24 heures sur les fondamentaux de Big Data aux étudiants en Master 2 (14 étudiants).
  • Contexte international
  • Analyse des données en entré
  • Conception du modèle de données et choix des technos
  • Développement Big Data
  • Pilotage et gestion du projet
  • Environnement technologique :
    Cloudera: hadoop, hive, impala, hbase, solr, hue, cloudera manager, LiIyIndexer, spark
    Linux: shell
    Python
    Oracle
    SqlDevelopper
    Sql
    MobaXterm
    Swagger
  • Mission consistant à monter une plate-forme BigData avec Apache Hadoop en HDFS sur plusieurs Virtual Serveur (VM’s). L’objectif étant de fournir un ensemble des documents internes pour faire un « Etat de l’Art » sur l’installation, l’administration et l’exploitation d’une infrastructure HDFS avec les outils Cloudera Manager (CDH5).
    Utilisation et installation de plusieurs maquettes/POC’s avec des modules complémentaires type Flink (traitement en temps réel), Spark et Kafka. Très bonne maîtrise des outils Apache autour des problématiques BigData.
  • Faire la veille technologique sur Apache Hadoop et tous les outils autour de Cloudera pour administrer une infrastructure HDFS.
  • Participation à plusieurs MeetUp’s de veille techno logique autour de HDFS, Spark et. Flink
  • Installation de CentOS 7 sur des plates-formes « VM ware » et « Virtual Box » en vue d’installer Hadoop HDFS et les composants Apache autour.
  • Installation des outils d’administration Cloudera ( CDH5) en vue de :
    • Gérer les aspects réseaux.
    • Configurer et déployer un cluster HDFS : Serveurs «Name Nodes » en configuration « High Availability » - HA ( « actif » et « standby » : composants annexes ZooKeeper, Zookeeper FailoverController, Journal Nodes, ) et non HA (« Primary » et « Secondary ») , Serveurs Data Nodes, architecture YARN ( Ressource Manager, Job History et Nodes Manager),Spark , MapReduce, Impala, Hive, Pig et outils d’ingestion ( Sqoop et Flume ), Data discovery (Solr), User interfaces (HUE). o Gestion des jobs , monitoring et maintenance : Ressource Manager web interface & HUE tools.
    • Gestion de clusters HDFS, du monitoring et la gestion des logs via Cloudera Manager et commandes linux. - Installation et configuration de nouveaux composants : Flink, KAFKA, Spark
    • Creation de script de connexion, d’import et export de données et lancement de jobs MapReduce.
    • Comparaison de résultats avec des solutions Hive e Impala
    • Participation à la création de jobs/programmes MapReduce selon besoins
  • Rédaction de plusieurs documents d’installation, d’administration et d’exploitation d’une infrastructure HDFS => « Etat de l’Art » Apache Hadoop HDFS.
  • Création de plusieurs POC’s pour installer, configurer et faire de tests de traitement avec Spark, Flink et Kafka
  • Création d’une chaîne BigData temps réel (« streaming ») avec Kafka et Flink.
  • Environnement technique: VMware, Vitual Box, CentOS 7, administration linux (shell), Apache Hadoop HDFS , outils d’administration Cloudera Manager, YARN, Spark, MapReduce, HIVE, PIG,
    IMPALA, Flink, Kafka, Solr, ZooKeeper, HUE, Sqoop, Flume.
  • Formateur pour « M2i Formation » pour donner le cours de 4 jours sur l’administration Hadoop – Cloudera pour 4 stagiaires des sociétés diverses.
  • •Cours de 4 jours avec « TP’s » de la formation « Administration Hadoop – Cloudera (programme suivi : « Administrateur Apache Hadoop avec Cloudera ».
  • •Préparation du support de la formation (plus de 500 slides) et des travaux pratiques.
  • •Présentation et apprentissage sur l’utilisation des outils d’administration Hadoop avec Cloudera CDH5.
  • •Cadrage et préparation des environnements pour la Aformation.
  • •Excellent retour des participants sur les 4 jours de formation (notes à l’appui fourni par M2i Formation)
  • dans le cadre du développement d’un algorithme d’analyse de données tournant sur un dispositif de suivi de sommeil composé d'une multitude de capteurs, ma mission avait pour objectifs de :

    • Améliorer le code existant pour optimiser:
      -- La collecte des informations fournies par la multitude de capteurs
      -- fixer les conditions d’acquisition de données permettant d’améliorer l'exploitation de ces données enregistrées par les capteurs.
    • Exploiter en tant que "Data Analyst" les centaines de milliers de données pour déterminer au plus près de la réalité, les divers stades du sommeil.
    • Mesurer les performances de l’algorithme.
    • Présenter de manière graphique les résultats de ces analyses.
  • Dans le cadre de cette mission ponctuelle ; mes principales tâches se résument à :
    • Installer, configurer et mettre en oeuvre sur un serveur (Linux Red Hat) distant et sur la machine en local les différents outils de développement adéquats.
    • Gestion de sauvegarde, de transfert et de récupération des données enregistrées par les capteurs.
    • Lire et comprendre les différents scripts de l’algorithme.
    • Rédiger des documents décrivant l’architecture de l’algorithme.
    • Effectuer plusieurs tests de l’algorithme sur de nouvelles données.
    • Améliorer la visualisation des sorties pour une meilleure interprétation des résultats.
    • Générer de nouvelles sorties de l’algorithme pour une meilleure évaluation des performances de l’algorithme.
    • Contribuer à l’amélioration de l’algorithme par des méthodes d’apprentissage automatique.
  • Environnement technique : Octave, Perl, MySQL, Linux, PUTTY, WinSCP, JIRA, scripts shell.
  • Effectuer un état de l’art sur les symétries, leur détection et utilisation en intelligence artificielle.
  • Conception d’une nouvelle méthode pour la détection des symétries dans les bases de données transactionnelles.
  • Conception UML et réalisation de la méthode en améliorant une application, déjà existante, pour la recherche de symétries dans les bases de données transactionnelles.
  • Environnement et technologies: UML, JAVA, Argo UML, Eclipse, Linux.
  • Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser une application type P2P pour le partage des ressources software.
  • Analyse des besoins et rédaction du cahier des charges.
  • Conception UML et modélisation.
  • Développement et réalisation.
  • Environnement et technologies : JAVA J2EE, servlet, JSP, XML/XSD/XSL, UML, Tomcat, JSF, MVC, Oracle, JDBC/ODBC, SQL, JavaScript, HTML, CSS, Argo-UML.
  • Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser un site web pour la gestion des ressources d’hôtel.
  • Analyse des besoins et rédaction du cahier des charges.
  • Conception UML et modélisation.
  • Développement et réalisation.
  • Environnement et technologies : PHP, UML, WAMP, MySQL, SQL, JavaScript, HTML, CSS, Argo-UML.

Elasticsearch Engineer 2

Elasticsearch

2020

Elasticsearch Engineer 1

Elasticsearch

2020

Cloudera Apache Hadoop Administrator

Cloudera

Septembre 2015
Configuration, déploiement et maintenance d'un cluster Hadoop

MASTER 2 SIA

Université d'Artois

Septembre 2013 à septembre 2014
Systèmes intelligents et applications

MASTER 2 STIC

Université Badji Mokhtar de Annaba

Septembre 2009 à septembre 2013
Sciences et technologies de l'information et de la communication

Baccalauréat

Lycée de BESBES

Depuis juin 2008
Math technique - option génie elétrique
Compétences

Big Data

  • Hadoop (HDFS)
    Expert
  • YARN
    Expert
  • MapReduce
    Expert
  • Cloudera Manager
    Expert
  • Pig
    Intermédiaire
  • Hive
    Expert
  • Impala
    Bon niveau
  • Hbase
    Bon niveau
  • Solr
    Bon niveau
  • ZooKeeper
    Intermédiaire
  • Sqoop
    Intermédiaire
  • FLume
    Bon niveau
  • Spark
    Avancé
  • Flink
    Notions
  • Kafka
    Bon niveau
  • Administration linux (shell)
    Bon niveau
  • Virtual Box
    Intermédiaire
  • VMware
    Intermédiaire
  • Ambari
    Expert
  • hue
    Avancé
  • Ranger
    Expert
  • NIFI
    Bon niveau
  • Tableau
    Bon niveau
  • ElasticSearch
    Bon niveau
  • Kibana
    Bon niveau

DevOps

  • Ansible
    Bon niveau

Security

  • LDAP
    Bon niveau
  • Kerberos
    Bon niveau

Databases

  • MySQL
    Bon niveau
  • Oracle
    Intermédiaire
  • SQL
    Avancé
  • JDBC/ODBC
    Bon niveau

Programming languages

  • Java/J2EE
    Bon niveau
  • Scala
    Notions
  • XML/XSD/XSL
    Avancé
  • C
    Notions
  • Python
    Bon niveau

IDE

  • Eclipse
    Bon niveau
  • IntelliJ IDEA
    Intermédiaire
  • Visual Studio
    Intermédiaire

Tools

  • MobaXterm
    Avancé
  • Putty
    Avancé
  • mRemote
    Avancé
  • WinSCP
    Bon niveau
  • Keepass
    Bon niveau
  • JIRA
    Avancé

Data analysis and machine learning

  • ACP
    Avancé
  • AFC
    Bon niveau
  • regeression
    Avancé
  • neural network
    Avancé
  • K-means
    Avancé
  • K-NN
    Avancé
  • desicion tree
    Avancé
  • random forest
    Avancé

Methodologies

  • SCRUM
    Bon niveau
  • Merise
    Bon niveau
  • UML
    Bon niveau

Operating Systems

  • Windows
    Avancé
  • Linux
    Avancé

Languages

  • Arabe
    Expert
  • Français
    Avancé
  • Anglais
    Bon niveau
Centres d'intérêt

Extra-pro

  • Meetups
  • Workshops

Sorties

  • Moto (permis A)
  • Aviation légère (préparation PPL)
  • Saut en parachute (PAC)
  • Vélo
  • VanLife
  • Roadtrip
  • Plongée sous marine (niveau 1)

Arts

  • Photographie
  • Création de vidéos
  • Drone

Cinéma

  • Films
  • Documentaires

Sport

  • foot
  • lutte
  • course à pieds
  • vélo
  • musculation
  • Boxe française
  • coaching fitness

Lectures

  • actualité
  • philosophie
  • forme, cuisine et nutrition
  • Développement personnel