Analyse Big data avec Python
OBJECTIFS :
- Connaître l’environnement de développement en Python
- Acquérir les bases de la programmation en Python
- Savoir utiliser les bibliothèques spécialisées
- Maîtriser les méthodes et les outils pour visualiser et modéliser les données
PROGRAMME DE FORMATION:
Configurer efficacement son environnement de travail
- Motivation autour du langage Python et de la librairie PySpark pour le traitement des données massives
- Installer Python et la batterie des librairies nécessaires : numpy, pandas, Scikit-learn, PySpark
- Paramétrer efficacement : divers fichiers et options
- Travailler avec fluidité sur des projets où on distribue la Data et on parallélise les tâches
- Se servir des fichiers sources de la formation
Du data munging avec PySpark
- Quand distribuer les données et paralléliser les données ?
- Principaux types de données et des concepts de Resilient Distributed Datasets (RDD) et DataFrame
- Partition, transformations, lazy evaluations et les actions
- Gestion des RDDs :
– Travailler sur les colonnes
– Travailler sur les lignes
– Travailler sur les dates
– Travailler sur les jointures
– Transformer un RDD : transformation map
– Agrégation de RDDs : reduce, aggregate
Analyse de données et régression logistique avec PySpark
- Bien faire la différence entre une action et une transformation
– La transformation sample et l’action takeSample
- Présentation et fonctionnalités de MLlib
- Apprentissage Méthodes linéaires
Requêtage, filtrage et exploration avec SparkSQL
- Construire un DataFrame depuis un dataframe de Pandas, depuis un csv, depuis un RDD
- Requêtes SQL
- Opérations sur un DataFrame
Définition des pipelines pour enchaîner les traitements
- Introduction et fonctionnalités de SparkML
- Estimator, Transformer et Param
- Pipeline : par ex Tokenzine, Hash et Régression logistique
INFORMATIONS COMPLÉMENTAIRES :
PUBLIC VISÉ
- Analystes
- Statisticiens
- Gestionnaires de bases de données
PRÉ-REQUIS
- Connaissances de base en programmation
- Connaissances de base en techniques statistiques
RESSOURCES
- Supports pédagogiques
- 30% de théorie
- 70% de pratique
MODALITÉS D’ACCÈS
- Présentiel
- A distance
- Interentreprises
- Intra-entreprise
MÉTHODES PÉDAGOGIQUES
- Apport magistral et interactivité
- Travaux pratiques
ÉVALUATION
- Exercices pratiques
- Mise en situation