

179
2020 -
www.demos.fr- Renseignements et inscriptions : 09 88 66 10 00 /
inscriptions@demos.frDATA SCIENCE - IA - BIG DATA - BASES DE DONNÉES - DÉCISIONNEL
Programme
Une introduction à Hadoop et HDFS
Pourquoi Hadoop
HDFS
MapReduce
Hive, Pig, HBase, et d’autres écosystèmes projet
Plani er son Cluster Hadoop
Choisir le bon matériel
Réseau
«Configuring Nodes»
Con gurer et déployer un Cluster
Types de déploiement
Installer Hadoop
Utiliser“Cloudera Manager for Easy Installation”
Les paramètres de configuration typiques
Utiliser“Configuration Management Tools”
Gérer les tâches
Gérer les tâches en cours
Exercices pratiques
Le“FIFO Scheduler”
Le“FairScheduler”
Gestion de Clusters
HDFS
Exercices pratiques : copier des données entre
clusters
Rajouter et retirer des « Cluster Nodes »
Rééquilibrer un Cluster
Cluster Monitoring et Troubleshooting
Gérer les“Log files”d’Hadoop
Utiliser le“NameNode”et“Job Tracker Web UI”
Exercices pratiques
Gestion de Cluster avec Ganglia
Troubleshooting
Benchmarking un Cluster
Conclusion de la formation Hadoop
Administrateurs
Focus sur l’examen Cloudera Certified
Administrator for Apache Hadoop
CLOUDERA ADMINISTRATEURS POUR HADOOP APACHE
(CERTIFIANT CCAH)
IBD70
2995
€
HT
(repas offert)
4 Jours
(28h)
Pour connaître nos sessions, rendez-vous sur
demos.frObjectifs
Disposer des prérequis pour dé nir une
architecture Hadoop • Con gurer, déployer et
administrer des Clusters en utilisant“Cloudera
Manager for Easy Installation”,“Con guration
Management Tools”et Ganglia • Préparer la
certi cation cloudera certi ed administrator
Participants
Administrateurs systèmes, personnes ayant à
gérer et maintenir les clusters Apache Hadoop en
production ou évoluant dans un environnement
de développement
Les +
Cette formation big data comprend 50% de
travaux pratiques sur les 4 jours de formation.
A la suite de cette formation Apache Haddop
administration, les stagiaires auront la possibilité
de passer l’examen « Cloudera Certified
Administrator ». Cet examen se déroule en dehors
du temps de la formation. Ils deviendront alors
des experts certifiés Cloudera dans leur entreprise.
Inscription sur
www.examslocal.comPré-requis
Avoir une expérience dans l’administration
système Linux, aucune expérience avec Hadoop
n’est nécessaire
Dates actualisées et programmation régionale disponibles sur
demos.fr/IBD70Programme
Analyse de données structurées avec Spark
DataFrames
Introduction à Spark sur Hadoop
RDD (Resilient Distributed Datasets)
Interagir avec HDFS
Soumettre une requête Python
Hands-On : DataFrame
L’API de base
Chargement de données structurées
Manipulations basiques
Types de données
Opérations et statistiques
Hands-On : Manipulations avancées des
DataFrames
Aggregations
Jointures
Window aggregations
Chargement et sauvegarde pour différents formats
SQL sur Spark
Hands-On : Bonnes pratiques et performances
Format des données et compression
Fonctionnement de Catalyst
Partition discovery
Python, R ou Scala pour Spark, que choisir ?
Machine Learning avec Spark ML
Rappels sur leMachine Learning SparkML –MLib
Structure de l’API & Concepts clés
Données d’entrée
Exemples supervisé et non supervisé
Limites de l’API
Hands-On : Spark ML
Structure de l’API & Concepts clés
Transformer / Estimator
Paramètres
Évaluation de modèles (classification, régression)
Hands-On : Feature Engineering
Indexing - Encoding - Text Processing - Scaling
Hands-On : Tuning de paramètres
Train-Validation Split
Grid-Search
Cross Validation
Hands-On : Pipeline
Construction de Pipeline de Machine Learning
Hands-On : Autres applications
Réduction de Dimension
Clustering
Systèmes de Recommandation
ANALYSE DE DONNÉES ET MACHINE LEARNING AVEC SPARK
IIA20
2280
€
HT
(repas offert)
3 Jours
(21h)
Pour connaître nos sessions, rendez-vous sur
demos.frObjectifs
Utiliser Spark SQL et Spark ML pour réaliser
des analyses traditionnelles des données,
de l’analyse statistique et appliquer des
algorithmes de Machine Learning au Big Data
Participants
Analyste de données, Data Scientist et développeur
ayant une appétence pour le Machine Learning
Les +
Les participants travailleront sur les fonctionnalités de
Spark. La partie pratique s’articulera autour d’un projet
fil rouge tout au long de la formation. L’accent sera
mis sur lamanipulation avancée de données sur les
tables à disposition. Sur la partie Machine Learning,
les participants travailleront sur l’élaboration d’un
premier modèle supervisé simple et son évaluation,
pour ensuite l’améliorer en le complexifiant avec les
différentes notions vues pendant la formation
Pré-requis
La connaissance de Python, R, Scala ou SQL est
préférable. La connaissance de java et spark
n’est pas requise. Cette formation se focalise sur
l’utilisation de Spark dans le cadre de l’Analyse de
Données et du Machine Learning et n’est pas une
formation dédiée au fonctionnement interne de
Spark d’un point de vue développeur (pour une
formation 100% dédiée au développement sur
Spark et donc moins de focus sur ses APIs d’analyse
de données voir la formation certifiante CCA IBD72)
Votre parcours
Avant : ICS61, ICS74
Dates actualisées et programmation régionale disponibles sur
demos.fr/IIA20