Votre navigateur est obsolète !

Pour une expériencenet et une sécurité optimale, mettez à jour votre navigateur. Mettre à jour maintenant

×

fares boudraa

Consultant Big Data

fares boudraa
33 ans
Permis de conduire
bezons (95870) France
Situation professionnelle
En poste
En recherche active
Présentation
As a Big Data consultant for almost 10 years, I have acquired in-depth expertise by successfully completing the "Cloudera Administrator Training for Apache Hadoop" offered by a Cloudera partner institution. My passion for Big Data technologies and machine learning algorithms has led me to play a key role in numerous projects. My main objective has been to assist clients in efficiently migrating from traditional data management solutions to new Big Data solutions.

Within this scope, I have designed and developed innovative Big Data projects, utilizing technologies such as Hadoop, Spark, and Kafka. My role extended beyond design and development; I was also responsible for the administration and maintenance of Big Data platforms, ensuring their optimal health and performance.

Additionally, I keep abreast of the latest technological advancements in the Big Data field. That's why I actively participate in Meetups where I discuss the latest trends in Big Data, artificial intelligence, and open-source software.

Outside of my Big Data-focused professional career, I have a passionate interest in sports and activities such as cycling, motorcycling, skydiving, as well as photography, aviation and space exploration. This diversity of interests enriches my professional journey by bringing a holistic perspective to my projects and collaborations.
CV réalisé sur DoYouBuzz
Expériences
  • Dans ma mission actuelle à La Poste, en tant qu'architecte solution, je travaille avec des chefs de projets technique, des product owner, des responsables de la sécurité et de la data management,.. sur plusieurs projets où la data représente un élément très important.
    En effet, pour bien mener un projet, j'interviens sur :
    • Analyser et comprendre les besoins métiers afin de proposer une ou plusieurs solutions possibles qui répondent au mieux aux besoins métier au sein du système existant.
    • Concevoir et cadrer l'architecture de l'ensemble des solutions.
    • Évaluer et faire un choix stratégique des technologies et outils de la solution.
    • Évaluer les risques et les menaces liés à la solution, et proposer des dispositifs de maîtrise de risque (DMR) pour garantir la sécurité et la sérénité du système.
    • Réaliser les différents blueprints d'architecture de la solution.
    • Présenter la ou les solutions aux différents architectes (solution, fonctionnel et entreprise) pour que ça soit validé avant le Build.
  • CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Dremio, Tableau
  • Rattaché à l’équipe « Admin Archi » au sein du département SID du groupe Altice, cette équipe a pour charge de mettre à disposition les différents plateformes Big Data et de garantir la continuité du service Big Data. L’objectif de la mission est d'être un acteur majeur dans l'équipe pour l'administration de la plateforme.
  • o Installation et configuration des serveurs Hadoop.
    o Superviser la plateforme Big Data et résoudre les incidents.
    o Assister les utilisateurs de la plateforme en cas de besoin.
    o Gestion de la sécurité sur la plateforme.
  • En tant qu'architecte: Réalisation de POC et étude sur la mise en place d'une plateforme Nifi.

    • Etude et analyse stratégique de la solution Nifi vis-à-vis de la solution actuel (Flume).
    • Identifier les différents scénarii possibles.
    • Comprendre les différents enjeux liés à chaque scénario.
    • Cadrage de l'architecture, conception technique et rédaction des blueprints pour chaque scénario.
    • Détailler la cinématique, le planning et les cout de réalisation.
  • CDH, CDP, CFM, Nifi, Hadoop, Hive, Impala, hue, Spark, Kerberos, Ranger, Kafka, Solr, Nifi, Nifi Registry, LDAP, Linux (RedHat), shell, HiveQL, MobaXterm,.
Description de l'entreprise
Télécom et Média
  • Rattaché à l’équipe « MOE Big Data» au sein du département SIT du groupe, qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data. Elle gère et maintient plusieurs clusters avec plusieurs environnements. L’objectif de la mission est d'être un acteur dans cette équipe en accomplissant plusieurs tâches.
  • Installation et configuration des serveurs liés à la plateforme BIG DATA (HDP, HDF et Elasticsearch).
  • Superviser la plateforme BIG DATA et résoudre les incidents.
  • Assister les utilisateurs de la plateforme BIG DATA en cas de besoin.
  • Gestion des policies sur l’accès aux données dans les différentes plateformes BIG DATA.
  • Environnement technologique :
    HDP/HDF: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka.
    Linux (RedHat), shell, MobaXterm, mRemote.
    Elasticsearch, Kibana.
Description de l'entreprise
La Régie autonome des transports parisiens (RATP) est un établissement public à caractère industriel et commercial de l'État assurant l'exploitation d'une partie des transports en commun de Paris et de sa banlieue
Site web de l'entreprise
  • Rattaché à l’équipe « infrastructure Hadoop » qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data au sein de Natixis, elle gère et maintient plusieurs clusters en production. L’objectif de la mission est de renforcer cette équipe d’une part, et de travailler sur l’analyse des logs de plusieurs serveurs LDAP d’autre part.
    1. Administration :
      o Installation et configuration des serveurs Hadoop.
      o Superviser la plateforme Hadoop et résoudre les incidents.
      o Assister les utilisateurs de la plateforme Hadoop en cas de besoin.
      o Gestion des policies sur l’accès aux données dans les différentes plateformes Hadoop.
    1. Data Engineering :
      Conception, implémentation et industrialisation d’un projet pour l’analyse de fichiers de log de plusieurs serveurs LDAP pour des besoins d’infrastructures et des fins de sécurité.
      o Ingestion de différents fichiers de log de plusieurs sources de données dans HDFS
      o Développement de plusieurs scripts en PySpark de transformation de données.
       Parsing des fichiers de logs et nettoyage des données pour extraire les informations utiles.
       Enrichissement des données.
       Création des tables contenant les données sous un format bien structuré dans Hive.
       Indexer les données dans Solr.
       Sortir des statistiques sur l’utilisation de l’infrastructure (plus de 10 000 serveurs Linux).
       Détecter des anomalies (par exemple : connexion interdite).
      o Générer des dashboards illustrant l’évolution de l’utilisation de l’infra.
      o Requêter les données (dans Hive en utilisant LLAP) pour savoir « qui fait quoi, et quand ?» sur l’infra.
  • Environnement technologique :
    HDP: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka, Storm, Solr, Linux (RedHat), shell, Python, Java, HiveQL, MobaXterm, Tableau Software, Banana, Superset, Control-M, UCS Manager, Xymon, Zabbix.
Site web de l'entreprise
  • • Rattaché à l’équipe audit IT du groupe Saint Gobain (plus de 800 sociétés dans le monde entier), l’objectif de la mission est de réaliser un POC sur la migration des données vers une architecture BIG Data afin d’augmenter la capacité de stockage tout en augmentant la performance de la restitution des données.
    • Installation et configuration des outils permettant de:
    o Etablir une connexion entre SSIS et Impala.
    o Etablir une connexion entre Tableau Software et Impala.
    • Extraction des données depuis SAP de plusieurs entités du groupe.
    • Ingestion des données dans HDFS
    • Développement de plusieurs scripts en PySpark de transformation de données.
    • Création de centaines de tables dans Impala et chargement des données.
    • Evaluation de la capacité et de la performance du cluster.
    • Recommandation sur le resizing du cluster afin de mieux répondre aux besoins.
    • Environnement technologique :
    Cloudera: Hadoop, Hive, Impala, hue, Cloudera manager, Spark, Linux : shell, Python, Jupyter, SQL Server, Sql, MobaXterm, SAP, Tableau Software, SSIS, Microsoft Virtual Studio.
Description de l'entreprise
Saint-Gobain est une entreprise française spécialisée dans la production, la transformation et distribution de matériaux.

Création 1665
Dates clés 1971 : Fusion avec Pont-à-Mousson
1996 : Rachat du groupe Point P
Fondateurs Colbert
Forme juridique Société anonyme
Action Euronext : SGO [archive]
Slogan Saint-Gobain construit votre futur & the future of glass since 1665
Siège social Courbevoie
Drapeau de France France
Direction Pierre-André de Chalendar, PDG
Actionnaires Wendel : 11,7 %
Actionnaires salariés : 7,5 %
Caisse des dépôts et consignations : 2,3 %
Autodétention : 0,6 %
Activité Producteur, transformateur et distributeur de matériaux de construction
Filiales Saint-Gobain Glass, Saint-Gobain Sekurit, Norton, Saint-Gobain SEFPRO (en), British Gypsum, CertainTeed, Ecophon, Eurocoustic, Gyproc, Isover, Saint-Gobain PAM, Placoplatre, Rigips, Weber, Groupe Lapeyre, La Plateforme du Bâtiment, Point P, Saint-Gobain Emballage, Solcera
Effectif 172 063 (en déc. 2016)
Site web Site officiel [archive]
Capitalisation 22,67 mds d'€ (23 avril 2015)
Fonds propres 17,870 milliards d'€ (2013)
Dette 11,912 milliards d'€ (2013)
Chiffre d’affaires 39,1 milliards d'€ (2016)
Résultat net 1,40 milliard d'€ (2016)
Site web de l'entreprise
  • Donner un cours de 4 jours sur "Big Data : Etat de l'art et administration Hadoop" aux étudiants en Master 2 (24 étudiants).
Description de l'entreprise
L’IPSSI, grande École d’Informatique, Web et Design Graphique implantée à Paris, Marne-la-Vallée, Brest et Toronto forme les étudiants du Bac au Bac+5 en alternance, aux métiers des nouvelles technologies.

L’IPSSI est une école reconnue par les plus grands acteurs du secteur de l’informatique et du web.
Plus de 600 étudiants par an sont formés en alternance à l’IPSSI. Faire le choix de l’alternance à l’IPSSI,
c’est bénéficier d’une formation d’excellence tout en cumulant une expérience professionnelle.

Depuis 1998, l’IPSSI place la proximité, l’innovation et l’employabilité de ses étudiants,
au cœur de sa pédagogie et délivre des diplômes reconnus par l’État niveaux 1, 2 et 3.
Site web de l'entreprise
  • Donner un cours de 24 heures sur les fondamentaux de Big Data aux étudiants en Master 2 (14 étudiants).
Description de l'entreprise
Ecole internationale spécialisée en informatique
Site web de l'entreprise
  • Contexte international
  • Analyse des données en entré
  • Conception du modèle de données et choix des technos
  • Développement Big Data
  • Pilotage et gestion du projet
  • Environnement technologique :
    Cloudera: hadoop, hive, impala, hbase, solr, hue, cloudera manager, LiIyIndexer, spark
    Linux: shell
    Python
    Oracle
    SqlDevelopper
    Sql
    MobaXterm
    Swagger
  • Mission consistant à monter une plate-forme BigData avec Apache Hadoop en HDFS sur plusieurs Virtual Serveur (VM’s). L’objectif étant de fournir un ensemble des documents internes pour faire un « Etat de l’Art » sur l’installation, l’administration et l’exploitation d’une infrastructure HDFS avec les outils Cloudera Manager (CDH5).
    Utilisation et installation de plusieurs maquettes/POC’s avec des modules complémentaires type Flink (traitement en temps réel), Spark et Kafka. Très bonne maîtrise des outils Apache autour des problématiques BigData.
  • Faire la veille technologique sur Apache Hadoop et tous les outils autour de Cloudera pour administrer une infrastructure HDFS.
  • Participation à plusieurs MeetUp’s de veille techno logique autour de HDFS, Spark et. Flink
  • Installation de CentOS 7 sur des plates-formes « VM ware » et « Virtual Box » en vue d’installer Hadoop HDFS et les composants Apache autour.
  • Installation des outils d’administration Cloudera ( CDH5) en vue de :
    • Gérer les aspects réseaux.
    • Configurer et déployer un cluster HDFS : Serveurs «Name Nodes » en configuration « High Availability » - HA ( « actif » et « standby » : composants annexes ZooKeeper, Zookeeper FailoverController, Journal Nodes, ) et non HA (« Primary » et « Secondary ») , Serveurs Data Nodes, architecture YARN ( Ressource Manager, Job History et Nodes Manager),Spark , MapReduce, Impala, Hive, Pig et outils d’ingestion ( Sqoop et Flume ), Data discovery (Solr), User interfaces (HUE). o Gestion des jobs , monitoring et maintenance : Ressource Manager web interface & HUE tools.
    • Gestion de clusters HDFS, du monitoring et la gestion des logs via Cloudera Manager et commandes linux. - Installation et configuration de nouveaux composants : Flink, KAFKA, Spark
    • Creation de script de connexion, d’import et export de données et lancement de jobs MapReduce.
    • Comparaison de résultats avec des solutions Hive e Impala
    • Participation à la création de jobs/programmes MapReduce selon besoins
  • Rédaction de plusieurs documents d’installation, d’administration et d’exploitation d’une infrastructure HDFS => « Etat de l’Art » Apache Hadoop HDFS.
  • Création de plusieurs POC’s pour installer, configurer et faire de tests de traitement avec Spark, Flink et Kafka
  • Création d’une chaîne BigData temps réel (« streaming ») avec Kafka et Flink.
  • Environnement technique: VMware, Vitual Box, CentOS 7, administration linux (shell), Apache Hadoop HDFS , outils d’administration Cloudera Manager, YARN, Spark, MapReduce, HIVE, PIG,
    IMPALA, Flink, Kafka, Solr, ZooKeeper, HUE, Sqoop, Flume.
  • Formateur pour « M2i Formation » pour donner le cours de 4 jours sur l’administration Hadoop – Cloudera pour 4 stagiaires des sociétés diverses.
  • •Cours de 4 jours avec « TP’s » de la formation « Administration Hadoop – Cloudera (programme suivi : « Administrateur Apache Hadoop avec Cloudera ».
  • •Préparation du support de la formation (plus de 500 slides) et des travaux pratiques.
  • •Présentation et apprentissage sur l’utilisation des outils d’administration Hadoop avec Cloudera CDH5.
  • •Cadrage et préparation des environnements pour la Aformation.
  • •Excellent retour des participants sur les 4 jours de formation (notes à l’appui fourni par M2i Formation)
  • dans le cadre du développement d’un algorithme d’analyse de données tournant sur un dispositif de suivi de sommeil composé d'une multitude de capteurs, ma mission avait pour objectifs de :

    • Améliorer le code existant pour optimiser:
      -- La collecte des informations fournies par la multitude de capteurs
      -- fixer les conditions d’acquisition de données permettant d’améliorer l'exploitation de ces données enregistrées par les capteurs.
    • Exploiter en tant que "Data Analyst" les centaines de milliers de données pour déterminer au plus près de la réalité, les divers stades du sommeil.
    • Mesurer les performances de l’algorithme.
    • Présenter de manière graphique les résultats de ces analyses.
  • Dans le cadre de cette mission ponctuelle ; mes principales tâches se résument à :
    • Installer, configurer et mettre en oeuvre sur un serveur (Linux Red Hat) distant et sur la machine en local les différents outils de développement adéquats.
    • Gestion de sauvegarde, de transfert et de récupération des données enregistrées par les capteurs.
    • Lire et comprendre les différents scripts de l’algorithme.
    • Rédiger des documents décrivant l’architecture de l’algorithme.
    • Effectuer plusieurs tests de l’algorithme sur de nouvelles données.
    • Améliorer la visualisation des sorties pour une meilleure interprétation des résultats.
    • Générer de nouvelles sorties de l’algorithme pour une meilleure évaluation des performances de l’algorithme.
    • Contribuer à l’amélioration de l’algorithme par des méthodes d’apprentissage automatique.
  • Environnement technique : Octave, Perl, MySQL, Linux, PUTTY, WinSCP, JIRA, scripts shell.
  • Effectuer un état de l’art sur les symétries, leur détection et utilisation en intelligence artificielle.
  • Conception d’une nouvelle méthode pour la détection des symétries dans les bases de données transactionnelles.
  • Conception UML et réalisation de la méthode en améliorant une application, déjà existante, pour la recherche de symétries dans les bases de données transactionnelles.
  • Environnement et technologies: UML, JAVA, Argo UML, Eclipse, Linux.
  • Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser une application type P2P pour le partage des ressources software.
  • Analyse des besoins et rédaction du cahier des charges.
  • Conception UML et modélisation.
  • Développement et réalisation.
  • Environnement et technologies : JAVA J2EE, servlet, JSP, XML/XSD/XSL, UML, Tomcat, JSF, MVC, Oracle, JDBC/ODBC, SQL, JavaScript, HTML, CSS, Argo-UML.
  • Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser un site web pour la gestion des ressources d’hôtel.
  • Analyse des besoins et rédaction du cahier des charges.
  • Conception UML et modélisation.
  • Développement et réalisation.
  • Environnement et technologies : PHP, UML, WAMP, MySQL, SQL, JavaScript, HTML, CSS, Argo-UML.