Table of Contents Table of Contents
Previous Page  181 / 580 Next Page
Information
Show Menu
Previous Page 181 / 580 Next Page
Page Background

179

2020 -

www.demos.fr

- Renseignements et inscriptions : 09 88 66 10 00 /

inscriptions@demos.fr

DATA SCIENCE - IA - BIG DATA - BASES DE DONNÉES - DÉCISIONNEL

Programme

Une introduction à Hadoop et HDFS

Pourquoi Hadoop

HDFS

MapReduce

Hive, Pig, HBase, et d’autres écosystèmes projet

Plani er son Cluster Hadoop

Choisir le bon matériel

Réseau

«Configuring Nodes»

Con gurer et déployer un Cluster

Types de déploiement

Installer Hadoop

Utiliser“Cloudera Manager for Easy Installation”

Les paramètres de configuration typiques

Utiliser“Configuration Management Tools”

Gérer les tâches

Gérer les tâches en cours

Exercices pratiques

Le“FIFO Scheduler”

Le“FairScheduler”

Gestion de Clusters

HDFS

Exercices pratiques : copier des données entre

clusters

Rajouter et retirer des « Cluster Nodes »

Rééquilibrer un Cluster

Cluster Monitoring et Troubleshooting

Gérer les“Log files”d’Hadoop

Utiliser le“NameNode”et“Job Tracker Web UI”

Exercices pratiques

Gestion de Cluster avec Ganglia

Troubleshooting

Benchmarking un Cluster

Conclusion de la formation Hadoop

Administrateurs

Focus sur l’examen Cloudera Certified

Administrator for Apache Hadoop

CLOUDERA ADMINISTRATEURS POUR HADOOP APACHE

(CERTIFIANT CCAH)

IBD70

2995

HT

(repas offert)

4 Jours

(28h)

Pour connaître nos sessions, rendez-vous sur

demos.fr

Objectifs

Disposer des prérequis pour dé nir une

architecture Hadoop • Con gurer, déployer et

administrer des Clusters en utilisant“Cloudera

Manager for Easy Installation”,“Con guration

Management Tools”et Ganglia • Préparer la

certi cation cloudera certi ed administrator

Participants

Administrateurs systèmes, personnes ayant à

gérer et maintenir les clusters Apache Hadoop en

production ou évoluant dans un environnement

de développement

Les +

Cette formation big data comprend 50% de

travaux pratiques sur les 4 jours de formation.

A la suite de cette formation Apache Haddop

administration, les stagiaires auront la possibilité

de passer l’examen « Cloudera Certified

Administrator ». Cet examen se déroule en dehors

du temps de la formation. Ils deviendront alors

des experts certifiés Cloudera dans leur entreprise.

Inscription sur

www.examslocal.com

Pré-requis

Avoir une expérience dans l’administration

système Linux, aucune expérience avec Hadoop

n’est nécessaire

Dates actualisées et programmation régionale disponibles sur

demos.fr/IBD70

Programme

Analyse de données structurées avec Spark

DataFrames

Introduction à Spark sur Hadoop

RDD (Resilient Distributed Datasets)

Interagir avec HDFS

Soumettre une requête Python

Hands-On : DataFrame

L’API de base

Chargement de données structurées

Manipulations basiques

Types de données

Opérations et statistiques

Hands-On : Manipulations avancées des

DataFrames

Aggregations

Jointures

Window aggregations

Chargement et sauvegarde pour différents formats

SQL sur Spark

Hands-On : Bonnes pratiques et performances

Format des données et compression

Fonctionnement de Catalyst

Partition discovery

Python, R ou Scala pour Spark, que choisir ?

Machine Learning avec Spark ML

Rappels sur leMachine Learning SparkML –MLib

Structure de l’API & Concepts clés

Données d’entrée

Exemples supervisé et non supervisé

Limites de l’API

Hands-On : Spark ML

Structure de l’API & Concepts clés

Transformer / Estimator

Paramètres

Évaluation de modèles (classification, régression)

Hands-On : Feature Engineering

Indexing - Encoding - Text Processing - Scaling

Hands-On : Tuning de paramètres

Train-Validation Split

Grid-Search

Cross Validation

Hands-On : Pipeline

Construction de Pipeline de Machine Learning

Hands-On : Autres applications

Réduction de Dimension

Clustering

Systèmes de Recommandation

ANALYSE DE DONNÉES ET MACHINE LEARNING AVEC SPARK

IIA20

2280

HT

(repas offert)

3 Jours

(21h)

Pour connaître nos sessions, rendez-vous sur

demos.fr

Objectifs

Utiliser Spark SQL et Spark ML pour réaliser

des analyses traditionnelles des données,

de l’analyse statistique et appliquer des

algorithmes de Machine Learning au Big Data

Participants

Analyste de données, Data Scientist et développeur

ayant une appétence pour le Machine Learning

Les +

Les participants travailleront sur les fonctionnalités de

Spark. La partie pratique s’articulera autour d’un projet

fil rouge tout au long de la formation. L’accent sera

mis sur lamanipulation avancée de données sur les

tables à disposition. Sur la partie Machine Learning,

les participants travailleront sur l’élaboration d’un

premier modèle supervisé simple et son évaluation,

pour ensuite l’améliorer en le complexifiant avec les

différentes notions vues pendant la formation

Pré-requis

La connaissance de Python, R, Scala ou SQL est

préférable. La connaissance de java et spark

n’est pas requise. Cette formation se focalise sur

l’utilisation de Spark dans le cadre de l’Analyse de

Données et du Machine Learning et n’est pas une

formation dédiée au fonctionnement interne de

Spark d’un point de vue développeur (pour une

formation 100% dédiée au développement sur

Spark et donc moins de focus sur ses APIs d’analyse

de données voir la formation certifiante CCA IBD72)

Votre parcours

Avant : ICS61, ICS74

Dates actualisées et programmation régionale disponibles sur

demos.fr/IIA20