As a Big Data consultant for almost 10 years, I have acquired in-depth expertise by successfully completing the "Cloudera Administrator Training for Apache Hadoop" offered by a Cloudera partner institution. My passion for Big Data technologies and machine learning algorithms has led me to play a key role in numerous projects. My main objective has been to assist clients in efficiently migrating from traditional data management solutions to new Big Data solutions.
Within this scope, I have designed and developed innovative Big Data projects, utilizing technologies such as Hadoop, Spark, and Kafka. My role extended beyond design and development; I was also responsible for the administration and maintenance of Big Data platforms, ensuring their optimal health and performance.
Additionally, I keep abreast of the latest technological advancements in the Big Data field. That's why I actively participate in Meetups where I discuss the latest trends in Big Data, artificial intelligence, and open-source software.
Outside of my Big Data-focused professional career, I have a passionate interest in sports and activities such as cycling, motorcycling, skydiving, as well as photography, aviation and space exploration. This diversity of interests enriches my professional journey by bringing a holistic perspective to my projects and collaborations.
Administrateur BigData « Apache Hadoop » avec Cloudera Manager
ACT4CONSULTING
Août 2015
à décembre 2017
Paris
France
Mission consistant à monter une plate-forme BigData avec Apache Hadoop en HDFS sur plusieurs Virtual Serveur (VM’s). L’objectif étant de fournir un ensemble des documents internes pour faire un « Etat de l’Art » sur l’installation, l’administration et l’exploitation d’une infrastructure HDFS avec les outils Cloudera Manager (CDH5). Utilisation et installation de plusieurs maquettes/POC’s avec des modules complémentaires type Flink (traitement en temps réel), Spark et Kafka. Très bonne maîtrise des outils Apache autour des problématiques BigData.
Faire la veille technologique sur Apache Hadoop et tous les outils autour de Cloudera pour administrer une infrastructure HDFS.
Participation à plusieurs MeetUp’s de veille techno logique autour de HDFS, Spark et. Flink
Installation de CentOS 7 sur des plates-formes « VM ware » et « Virtual Box » en vue d’installer Hadoop HDFS et les composants Apache autour.
Installation des outils d’administration Cloudera ( CDH5) en vue de :
Gérer les aspects réseaux.
Configurer et déployer un cluster HDFS : Serveurs «Name Nodes » en configuration « High Availability » - HA ( « actif » et « standby » : composants annexes ZooKeeper, Zookeeper FailoverController, Journal Nodes, ) et non HA (« Primary » et « Secondary ») , Serveurs Data Nodes, architecture YARN ( Ressource Manager, Job History et Nodes Manager),Spark , MapReduce, Impala, Hive, Pig et outils d’ingestion ( Sqoop et Flume ), Data discovery (Solr), User interfaces (HUE). o Gestion des jobs , monitoring et maintenance : Ressource Manager web interface & HUE tools.
Gestion de clusters HDFS, du monitoring et la gestion des logs via Cloudera Manager et commandes linux. - Installation et configuration de nouveaux composants : Flink, KAFKA, Spark
Creation de script de connexion, d’import et export de données et lancement de jobs MapReduce.
Comparaison de résultats avec des solutions Hive e Impala
Participation à la création de jobs/programmes MapReduce selon besoins
Rédaction de plusieurs documents d’installation, d’administration et d’exploitation d’une infrastructure HDFS => « Etat de l’Art » Apache Hadoop HDFS.
Création de plusieurs POC’s pour installer, configurer et faire de tests de traitement avec Spark, Flink et Kafka
Création d’une chaîne BigData temps réel (« streaming ») avec Kafka et Flink.