Votre navigateur est obsolète !

Pour une expériencenet et une sécurité optimale, mettez à jour votre navigateur. Mettre à jour maintenant

×

fares boudraa

fares boudraa

Consultant Big Data

29 ans
Permis de conduire
argenteuil (95100) France
En poste Ouvert aux opportunités
I am Consultant Big Data, I attended the "Cloudera Administrator Training for Apache Hadoop" at Cloudera.

I became passionate with Big Data technologies and machine learning algorithms.

I like to participate at Meetups talking about new big data technologies, Data science and open-source software.
CV réalisé sur DoYouBuzz
  • Rattaché à l’équipe « infrastructure Hadoop » qui a pour charge de mettre à disposition les différents outils Big Data et de garantir la continuité du service Big Data au sein de Natixis, elle gère et maintient plusieurs clusters en production. L’objectif de la mission est de renforcer cette équipe d’une part, et de travailler sur l’analyse des logs de plusieurs serveurs LDAP d’autre part.
  • 1. Administration :
    o Installation et configuration des serveurs Hadoop.
    o Superviser la plateforme Hadoop et résoudre les incidents.
    o Assister les utilisateurs de la plateforme Hadoop en cas de besoin.
    o Gestion des policies sur l’accès aux données dans les différentes plateformes Hadoop.
  • 2. Data Engineering :
    Conception, implémentation et industrialisation d’un projet pour l’analyse de fichiers de log de plusieurs serveurs LDAP pour des besoins d’infrastructures et des fins de sécurité.
    o Ingestion de différents fichiers de log de plusieurs sources de données dans HDFS
    o Développement de plusieurs scripts en PySpark de transformation de données.
     Parsing des fichiers de logs et nettoyage des données pour extraire les informations utiles.
     Enrichissement des données.
     Création des tables contenant les données sous un format bien structuré dans Hive.
     Indexer les données dans Solr.
     Sortir des statistiques sur l’utilisation de l’infrastructure (plus de 10 000 serveurs Linux).
     Détecter des anomalies (par exemple : connexion interdite).
    o Générer des dashboards illustrant l’évolution de l’utilisation de l’infra.
    o Requêter les données (dans Hive en utilisant LLAP) pour savoir « qui fait quoi, et quand ?» sur l’infra.
  • Environnement technologique :
    HDP: Hadoop, Hive, Ambari, Hbase, Spark, Kerberos, Ranger, Kafka, Storm, Solr, Linux (RedHat), shell, Python, Java, HiveQL, MobaXterm, Tableau Software, Banana, Superset, Control-M, UCS Manager, Xymon, Zabbix.
En savoir +
  • • Rattaché à l’équipe audit IT du groupe Saint Gobain (plus de 800 sociétés dans le monde entier), l’objectif de la mission est de réaliser un POC sur la migration des données vers une architecture BIG Data afin d’augmenter la capacité de stockage tout en augmentant la performance de la restitution des données.
    • Installation et configuration des outils permettant de:
    o Etablir une connexion entre SSIS et Impala.
    o Etablir une connexion entre Tableau Software et Impala.
    • Extraction des données depuis SAP de plusieurs entités du groupe.
    • Ingestion des données dans HDFS
    • Développement de plusieurs scripts en PySpark de transformation de données.
    • Création de centaines de tables dans Impala et chargement des données.
    • Evaluation de la capacité et de la performance du cluster.
    • Recommandation sur le resizing du cluster afin de mieux répondre aux besoins.
    • Environnement technologique :
    Cloudera: Hadoop, Hive, Impala, hue, Cloudera manager, Spark, Linux : shell, Python, Jupyter, SQL Server, Sql, MobaXterm, SAP, Tableau Software, SSIS, Microsoft Virtual Studio.
En savoir +
  • Donner un cours de 4 jours sur "Big Data : Etat de l'art et administration Hadoop" aux étudiants en Master 2 (24 étudiants).
En savoir +
  • Donner un cours de 24 heures sur les fondamentaux de Big Data aux étudiants en Master 2 (14 étudiants).
En savoir +
  • Contexte international
  • Analyse des données en entré
  • Conception du modèle de données et choix des technos
  • Développement Big Data
  • Pilotage et gestion du projet
  • Environnement technologique :
    Cloudera: hadoop, hive, impala, hbase, solr, hue, cloudera manager, LiIyIndexer, spark
    Linux: shell
    Python
    Oracle
    SqlDevelopper
    Sql
    MobaXterm
    Swagger
  • Mission consistant à monter une plate-forme BigData avec Apache Hadoop en HDFS sur plusieurs Virtual Serveur (VM’s). L’objectif étant de fournir un ensemble des documents internes pour faire un « Etat de l’Art » sur l’installation, l’administration et l’exploitation d’une infrastructure HDFS avec les outils Cloudera Manager (CDH5).
    Utilisation et installation de plusieurs maquettes/POC’s avec des modules complémentaires type Flink (traitement en temps réel), Spark et Kafka. Très bonne maîtrise des outils Apache autour des problématiques BigData.
  • Faire la veille technologique sur Apache Hadoop et tous les outils autour de Cloudera pour administrer une infrastructure HDFS.
  • Participation à plusieurs MeetUp’s de veille techno logique autour de HDFS, Spark et. Flink
  • Installation de CentOS 7 sur des plates-formes « VM ware » et « Virtual Box » en vue d’installer Hadoop HDFS et les composants Apache autour.
  • Installation des outils d’administration Cloudera ( CDH5) en vue de :
    - Gérer les aspects réseaux.
    - Configurer et déployer un cluster HDFS : Serveurs «Name Nodes » en configuration « High Availability » - HA ( « actif » et « standby » : composants annexes ZooKeeper, Zookeeper FailoverController, Journal Nodes, ) et non HA (« Primary » et « Secondary ») , Serveurs Data Nodes, architecture YARN ( Ressource Manager, Job History et Nodes Manager),Spark , MapReduce, Impala, Hive, Pig et outils d’ingestion ( Sqoop et Flume ), Data discovery (Solr), User interfaces (HUE). o Gestion des jobs , monitoring et maintenance : Ressource Manager web interface & HUE tools.
    - Gestion de clusters HDFS, du monitoring et la gestion des logs via Cloudera Manager et commandes linux. - Installation et configuration de nouveaux composants : Flink, KAFKA, Spark
    - Creation de script de connexion, d’import et export de données et lancement de jobs MapReduce.
    - Comparaison de résultats avec des solutions Hive e Impala
    - Participation à la création de jobs/programmes MapReduce selon besoins
  • Rédaction de plusieurs documents d’installation, d’administration et d’exploitation d’une infrastructure HDFS => « Etat de l’Art » Apache Hadoop HDFS.
  • Création de plusieurs POC’s pour installer, configurer et faire de tests de traitement avec Spark, Flink et Kafka
  • Création d’une chaîne BigData temps réel (« streaming ») avec Kafka et Flink.
  • Environnement technique: VMware, Vitual Box, CentOS 7, administration linux (shell), Apache Hadoop HDFS , outils d’administration Cloudera Manager, YARN, Spark, MapReduce, HIVE, PIG,
    IMPALA, Flink, Kafka, Solr, ZooKeeper, HUE, Sqoop, Flume.
  • Formateur pour « M2i Formation » pour donner le cours de 4 jours sur l’administration Hadoop – Cloudera pour 4 stagiaires des sociétés diverses.
  • •Cours de 4 jours avec « TP’s » de la formation « Administration Hadoop – Cloudera (programme suivi : « Administrateur Apache Hadoop avec Cloudera ».
  • •Préparation du support de la formation (plus de 500 slides) et des travaux pratiques.
  • •Présentation et apprentissage sur l’utilisation des outils d’administration Hadoop avec Cloudera CDH5.
  • •Cadrage et préparation des environnements pour la Aformation.
  • •Excellent retour des participants sur les 4 jours de formation (notes à l’appui fourni par M2i Formation)
  • dans le cadre du développement d’un algorithme d’analyse de données tournant sur un dispositif de suivi de sommeil composé d'une multitude de capteurs, ma mission avait pour objectifs de :

    - Améliorer le code existant pour optimiser:
    -- La collecte des informations fournies par la multitude de capteurs
    -- fixer les conditions d’acquisition de données permettant d’améliorer l'exploitation de ces données enregistrées par les capteurs.
    - Exploiter en tant que "Data Analyst" les centaines de milliers de données pour déterminer au plus près de la réalité, les divers stades du sommeil.
    - Mesurer les performances de l’algorithme.
    - Présenter de manière graphique les résultats de ces analyses.
  • Dans le cadre de cette mission ponctuelle ; mes principales tâches se résument à :
    - Installer, configurer et mettre en oeuvre sur un serveur (Linux Red Hat) distant et sur la machine en local les différents outils de développement adéquats.
    - Gestion de sauvegarde, de transfert et de récupération des données enregistrées par les capteurs.
    - Lire et comprendre les différents scripts de l’algorithme.
    - Rédiger des documents décrivant l’architecture de l’algorithme.
    - Effectuer plusieurs tests de l’algorithme sur de nouvelles données.
    - Améliorer la visualisation des sorties pour une meilleure interprétation des résultats.
    - Générer de nouvelles sorties de l’algorithme pour une meilleure évaluation des performances de l’algorithme.
    - Contribuer à l’amélioration de l’algorithme par des méthodes d’apprentissage automatique.
  • Environnement technique : Octave, Perl, MySQL, Linux, PUTTY, WinSCP, JIRA, scripts shell.
  • Effectuer un état de l’art sur les symétries, leur détection et utilisation en intelligence artificielle.
  • Conception d’une nouvelle méthode pour la détection des symétries dans les bases de données transactionnelles.
  • Conception UML et réalisation de la méthode en améliorant une application, déjà existante, pour la recherche de symétries dans les bases de données transactionnelles.
  • Environnement et technologies: UML, JAVA, Argo UML, Eclipse, Linux.
  • Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser une application type P2P pour le partage des ressources software.
  • Analyse des besoins et rédaction du cahier des charges.
  • Conception UML et modélisation.
  • Développement et réalisation.
  • Environnement et technologies : JAVA J2EE, servlet, JSP, XML/XSD/XSL, UML, Tomcat, JSF, MVC, Oracle, JDBC/ODBC, SQL, JavaScript, HTML, CSS, Argo-UML.
  • Affecté à une équipe composée d’un chercheur et un ingénieur informaticien mon but fut de réaliser un site web pour la gestion des ressources d’hôtel.
  • Analyse des besoins et rédaction du cahier des charges.
  • Conception UML et modélisation.
  • Développement et réalisation.
  • Environnement et technologies : PHP, UML, WAMP, MySQL, SQL, JavaScript, HTML, CSS, Argo-UML.

Cloudera Apache Hadoop Administrator

Cloudera

Septembre 2015
Configuration, déploiement et maintenance d'un cluster Hadoop

MASTER 2 TRIED

Université de Versailles Saint-Quentin-en-Yvelines

Septembre 2014 à 2015
Traitement de l'information et exploitation des données

MASTER 2 SIA

Université d'Artois

Septembre 2013 à septembre 2014
Systèmes intelligents et applications

MASTER 2 STIC

Université Badji Mokhtar de Annaba

Septembre 2009 à septembre 2013
Sciences et technologies de l'information et de la communication

Baccalauréat

Lycée de BESBES

Depuis juin 2008
Math technique - option génie elétrique
  • Hadoop (HDFS)
    Expert
  • YARN
    Expert
  • MapReduce
    Expert
  • Outils d’administration Cloudera Manager
    Expert
  • Pig
    Intermédiaire
  • Hive
    Expert
  • Impala
    Bon niveau
  • Hbase
    Bon niveau
  • Solr
    Bon niveau
  • ZooKeeper
    Intermédiaire
  • Sqoop
    Intermédiaire
  • FLume
    Intermédiaire
  • Spark
    Avancé
  • Flink
    Notions
  • Kafka
    Bon niveau
  • Administration linux (shell)
    Bon niveau
  • Virtual Box
    Avancé
  • VMware
    Avancé
  • Ambari
    Expert
  • hue
    Avancé
  • Ranger
    Expert
  • ACP
    Avancé
  • AFC
    Bon niveau
  • regeression
    Avancé
  • neural network
    Avancé
  • K-means
    Avancé
  • K-NN
    Avancé
  • desicion tree
    Avancé
  • random forest
    Avancé
  • MySQL
    Bon niveau
  • Oracle
    Intermédiaire
  • SQL
    Avancé
  • JDBC/ODBC
    Bon niveau

IDE

  • Eclipse
    Bon niveau
  • IntelliJ IDEA
    Intermédiaire
  • CcdeBlock
    Intermédiaire
  • Java/J2EE
    Bon niveau
  • servlet
    Bon niveau
  • JSP
    Bon niveau
  • Scala
    Intermédiaire
  • XML/XSD/XSL
    Avancé
  • C
    Notions
  • Python
    Bon niveau
  • JIRA
    Intermédiaire
  • Rational Rose
    Intermédiaire
  • Argo-UML
    Intermédiaire
  • WinSCP
    Bon niveau
  • MobaXterm
    Bon niveau
  • Putty
    Bon niveau
  • Tomcat
    Intermédiaire
  • Wampserver
    Bon niveau
  • JSF
    Intermédiaire
  • MVC
    Intermédiaire

Web

  • HTML
    Intermédiaire
  • CSS
    Intermédiaire
  • JavaScript
    Intermédiaire
  • PHP
    Intermédiaire
  • SCRUM
    Bon niveau
  • Merise
    Bon niveau
  • UML
    Bon niveau
  • Arabe
    Expert
  • Français
    Avancé
  • Anglais
    Bon niveau

ERP

  • SAP
    Notions

BI

  • SSIS
    Notions
  • Films
  • Documentaires
  • foot
  • lutte
  • course à pieds
  • vélo
  • musculation
  • Boxe française
  • actualité
  • philosophie